自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 pyspark 交叉验证的实现

pyspark 中的交叉验证在pyspark中调用交叉验证的方式来建模。from pyspark.ml.classification import LogisticRegressionfrom pyspark.ml.evaluation import BinaryClassificationEvaluatorfrom pyspark.ml.tuning import CrossValidatorfrom pysparl.ml.feature import VectorAssemblerfrom

2021-03-11 14:57:08 930

原创 pyspark 中算法和模型的运用

pyspark 中算法和模型的运用LogisticRegression和LogisticRegressionModel的区别LogisticRegression和LogisticRegressionModel的区别LogisticRegression用于引入平台的逻辑回归模型,在建模时需要设置对应的参数值,在模型训练好后,可以利用save(modelPath) 对训练好的模型进行保存,tips(在保存模型时,需要确保保存的路径下没有改名称的文件,如果之前就有导出,则需要删除或者用overwrite()函

2021-02-26 16:49:51 734

原创 单因素Anova分析 Python实现

单因素方差分析常用于判断在多个分组中某个指标是否具有显著差异,下面以射击比赛为例,三位选手分别成绩如下:Pat - 5, 4, 4, 3, 9, 4Jack - 4, 8, 7, 5, 1, 5Alex - 9, 9, 8, 10, 4, 10基于上述数据,我们希望判断上述三个选手中成绩最好的。原假设:三个选手的成绩无显著差异。拒绝原假设的就表示在三个选手中至少有两个人是具有显著差异的...

2019-07-19 10:44:51 9868

原创 hadoop集群安装hive

最近在学习Spark,在Ubuntu中安装完Hadoop之后,安装hive出现了些问题,找了很多的资料,最终成功安装。现在将查找到资料里的安装步骤整理如下。1:下载hive安装包,可以在通过http://mirror.bit.edu.cn/apache/hive/hive-2.3.5/进行下载,得到文件apache-hive-2.3.5-bin.tar.gz;2:解压tar -zxvf a...

2019-06-24 17:39:38 150

翻译 如何在Centos7上安装Python3.6.4

三条命令:1:sudo yum install -y https://centos7.iuscommunity.org/ius-release.rpm2:sudo yum update3:sudo yum install -y python36u python36u-libs python36u-devel python36u-pip验证语句:python3.6 -V...

2019-05-24 09:49:07 236

原创 Pandas 中 DataFrame 结果删除噪声数据的一种方法

在数据处理阶段,通过分析,经常存在个别偏离群体数据的样本,这时往往需要删除掉这些噪声数据,以便更合理的分析数据。最基本的方法为删除偏离均值三倍标准差的数据。import numpy as npimport pandas as pddf = pd.read_csv(filename)#filename表示相应路径下的文件名,需要注意文件的格式信息def drop_noisy(df): d...

2018-11-14 10:37:20 3656 2

电子科技大学计算机专业操作系统课件

电子科技大学计算机操作系统考研复习资料 考研

2014-11-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除