自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 数据挖掘学习笔记--聚类分析(一)

聚类(clustering)是将物理或抽象对象的集合分成相似的对象类或簇的过程,是无监督学习【unsupervised learning】。--基于划分     k-means 基本K均值方法          方法:              1.选择K个点作为初始质心              2.repeat              3.       将每个点指派到最近的质心,形成K个簇 ...

2018-06-28 11:14:34 883

原创 Hadoop 2.x hdfs常用操作

1.查看目录  hadoop fs -ls /ps:  如果使用 hadoop fs -ls 会报错,hdfs 的根目录是 /2.创建目录 bin/hdfs dfs -mkdir -p /dir_nameps:如果是1.x版本或CDH等发行版本 使用  bin/hadoop fs -mkdir -p /dir_name...

2018-05-15 01:12:27 251

原创 数据挖掘学习笔记--决策树(一)

博客整理自 《统计学习方法》李航著一、决策树关键问题1.选择特征2.树的生长和终止3.如何剪枝二、决策树基本概念基尼指数(Gini index):    假设有K个类,样本点属于第k类的概率为pk:             (式1)   对于给定的样本集合D,K是类的个数,Ck是属于第k类的样本子集,其基尼指数为:                              (式2)   在特征A的...

2018-04-21 16:01:52 760

原创 数据挖掘学习笔记-分类 & 聚类

分类(Classification):    通过学习得到一个目标函数(target function)/分类模型(classification model),把每个属性集x映射到一个预先定义的类标号y。聚类分析(Cluster analysis):   仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)...

2018-04-20 22:00:48 143

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除