自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Matplotlib基础知识

点击

2017-08-05 19:39:50 278

原创 pandas 基础知识

点击

2017-06-08 07:31:05 316

原创 numpy 基础知识

点击

2017-05-07 09:33:59 293

原创 Spark ML 分布式机器学习(二):pipeline

一、pipeline主要概念pipeline在结构上把原有的机器学习各个流程整合成一个流水线式的工作流程。一个完整的pipeline主要有:DataFrame、Transformer、Estimator、pipeline以及parameter。一个pipeline在结果是会包含一个或多个步骤,每个步骤都会完成相应的任务,如数据的处理转化、模型训练,参数设置以及模型预测等,而最主要的两个步骤为Tran

2017-04-15 11:39:16 1363

原创 Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置

本人是DM领域里菜鸟一枚,原热衷于sklearn进行机器学习,经过阿里巴巴的电话面试以及网上查询看到许多公司都是用分布式spark进行数据挖掘及机器学习,经过了解和一些视频介绍决定把数据挖掘及机器学习转移到spark上,一直喜欢Python的我,spark也有相应的API--pyspark shell。工欲善其事必先利其器,经过网上博客等文章的查询,我在这篇文章里主要写了Windows7上的VMware Workst

2017-04-09 22:28:12 2470

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除