hadooper-enjoyment-CSDN博客

原创 ANN-人工神经网络

ANN神经网络训练使用back propagation算法bp算法利用输出后的误差来估计输出层的直接前导层的误差，再用这个误差估计更前一层的误差，如此一层一层的反传下去，就获得了所有其他各层的误差估计。激活函数激活函数使用sigmod函数，该函数处处可导。使用sigmod函数时，bp网络输入与输出关系： - 输入： - 输出：学习过程神经网

2017-02-17 13:41:33 812

原创朴素贝叶斯

贝叶斯定理贝叶斯定理解决了现实生活里经常遇到的问题：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率：表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。

2017-02-10 17:10:01 305

原创 adaboost

adaboostadaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器，然后把这些弱分类器集合起来，构成一个更强的最终分类器。 adaboost本身是通过改变数据分布来实现的，它根据每次训练集中每个样本的分类是否正确，以及上次的总体分布的准确率，来确定每个样本的权值，将修改过权值的新数据集送给下层分类器进行训练，最后将每次得到的分类器融合起来，作为最后的决策分类器。

2017-02-09 16:49:12 1301

原创 random forest（随机森林）

随机森林用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

2017-02-09 15:30:30 616

原创 CART-分类回归树

CART简述cart，分类和回归树算法。 cart既可以用来构建分类决策树，也可以用来构建回归树、模型树。cart创建分类决策树使用当前数据集中具有最小Gini信息增益的特征作为结点划分决策树。详述可见决策树一节的描述。回归树，与分类决策树类似，但叶子节点数据类型不是离散型，而是离散型。cart用于回归时，根据叶子是具体值还是另外的机器学习模型又可以分为回归树和模型树。但是无论是回归树还是模型

2017-02-07 16:00:36 2089 1

原创聚类-birch（层次方法的平衡迭代规约和聚类）

birch--利用层次方法的平衡迭代规约和聚类。

2017-02-04 11:54:43 1424

ECLAT-等价类转换（Equivalent CLAss Transformation） ECLAT使用垂直数据格式挖掘频繁项集。垂直数据apriori算法和fp-growth算法都从TID项集格式（即{TID：itemset}）的事务集中挖掘频繁模式，其中TID是事务标识符，而itemset是事务TID中购买的商品。这个格式的数据称为水平数据格式。或者，数据也可以用项-TID集的格式（即{ite

2017-01-13 10:20:36 2422

原创关联规则挖掘算法-FP-Growth

apriori算法有如下两种开销的影响：它仍可能产生大量的候选集。例如，如果10的4次方个频繁1项集，则apriori算法需要产生多达10的7次方个候选2项集。它可能需要重复地扫描数据库，通过模式匹配检查一个很大的候选集合。检查数据库中每个事务来确定候选集支持度的开销很大。FP-Growth（频繁模式增长）FP-Growth可以消除上述apriori算法的两中开销。 FP-Growth采用如

2017-01-13 09:46:44 977

原创关联规则挖掘算法-apriori

关联分析关联分析即从数据集中发现项之间的隐藏关系。apriori算法主要是基于频繁项集的关联分析。关联规则挖掘有两个步骤：寻找频繁项集从频繁项集产生关联规则apriori性质任一频繁项集的所有非空子集也必须是频繁项集。这个项集可以在生成k-itemset的候选项时，如果这个候选项的（k-1）子集中有某个子集不存在（k-1）-itemset中，那么这个候选项直接删除，即不是k-itemset

2017-01-12 16:28:06 528

原创决策树

属性选择方法属性选择方法总是选择最好的属性作为分裂属性，即让每个分支的记录的类别尽可能纯。它将所有属性列表的属性按某个标准排序，从而选出最好的属性。属性选择方法很多，常用的有3中：1、信息增益（ID.3）信息增益基于香浓的信息论，它找出的属性R具有这样的特点：以属性R分裂前后的信息增益比最大。

2017-01-09 10:07:38 1089

原创支持向量机（SVM）

SVM支持向量机是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略是间隔最大化，最终可转化为一个凸二次规划问题的求解。svm目标函数线性分类超平面的分类函数为，当f(x) 等于0的时候，x便是位于超平面上的点，而f(x)大于0的点对应 y=1 的数据点，f(x)小于0的点对应y=-1的点。而svm重点在于如何求超平面。

2017-01-01 21:08:51 933

原创机器学习之knn算法

knn算法工作原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一条数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后选择k个最相似数

2016-12-16 14:13:42 452

原创普通最小二乘法（OLS）

最小二乘法公式推导过程

2016-12-10 09:04:15 9497

原创 sparkstreaming + kafka如何保证数据不丢失、不重复

sparkStreaming与kafka集成，保证数据完整性、不重复

2016-12-03 19:03:36 5079 2

maven-ant-tasks-2.1.3.jar

hive界面hive web interface需要使用的jar包

2017-04-08

小型ftp服务器、客户端

模拟ftp的linux程序。支持用户登录、登出、查询、上传和下载功能，支持断点续传功能。

2015-04-27

epoll异步服务端程序，客户端采用多线程访问，服务端总是返回errno 9和107

2016-03-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Enjoy the pleasure in the ocean of big data