自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 pandas 缺失值与空值处理之df.fillna()失败问题

使用的pandas版本使用pandas读取数据import pandas as pdpath = 'D:/Desktop'data = pd.read_excel(path + 'a.xlsx')print(data['男smoke'].head())使用pd.fillna()来处理缺失值(数据是我做过map映射的结果)使用众数填补缺失值data['男smoke'].fillna(data['男smoke'].mode(), inplace=True)你会发现这个函

2021-07-02 11:04:26 4819 5

原创 随机森林和Adaboost对比

随机森林和adaboost算法都可以用来分类,它们都是优秀的基于决策树的组合算法。相对于经典线性判别分析,其分类效果一般要好很多。boosting方法提升学习(Boosting)是一种机器学习技术,可以用于回归和分类的问题,它每一步产生弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预测模型的生成都是依据损失函数的梯度方式的,那么就称为梯度提升(Gradient boost...

2020-03-14 10:37:03 7043

原创 spark性能优化点(1)

1. 分配更多的资源1.1 分配哪些资源1.2 在哪里可以设置这些资源1.3 参数调节到多大,算是最大分配更多的资源:它是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行...

2020-03-10 08:42:33 109

原创 spark入门到精通(1)

Spark学习第一天了解spark,以及一些简单的基础1.学习目标 了解spark相关背景以及其框架特点 掌握搭建spark集群(尤其是高可用集群搭建) (重点) 掌握spark应用程序开发以及运行 (重点) 掌握Spark框架中的角色 (重点) 2.Spark基础2.1什么是SparkSpark是一种快速、通用、可扩展的大数据分析引擎,2009...

2020-02-26 19:44:18 526

转载 机器学习中 常见问题汇总(一)

深度学习框架TensorFlow中都有哪些优化方法?梯度下降算法针对凸优化问题原则上是可以收敛到全局最优的,因为此时只有唯一的局部最优点。而实际上深度学习模型是一个复杂的非线性结构,一般属于非凸问题,这意味着存在很多局部最优点(鞍点),采用梯度下降算法可能会陷入局部最优,这应该是最头疼的问题。这点和进化算法如遗传算法很类似,都无法保证收敛到全局最优。因此,我们注定在这个问题上成为“高级炼丹师”...

2018-09-15 10:12:35 6347

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除