Oldog_1991-CSDN博客

原创 Logistic回归（二）

（一）中的算法在数据集庞大且特征较多的情况下，计算开销很大很复杂，故需要对算法稍作改进调整，避免之前的问题，且使所求系数尽快达到稳定值，一个好方法是采用随机梯度上升算法： # 随机梯度上升算法 def stocgradascent(datamatrix, classlabels, number=100): m, n = shape(datamatrix) # 之前是矩阵乘法，每...

2018-09-19 23:59:52 148

原创 Logistic回归（一）

书上介绍，属于最优化算法，也确实如此，就像怎么工作时间短并且又做得好一样。主要思想是：根据现有数据对分类边界线建立回归公式，以此分类。因为需要计算距离，需要数值型数据；因为工作原因，挑选的数据需要预测性强、容易获得、容易解读等等，算法的大部分时间用于训练，为了找到最佳的回归系数。因为个人数学极差，理解公式很费劲，书中的越阶函数其实就是一个分类函数而已，可以根据自己的需要设...

2018-09-17 23:44:08 161

原创朴素贝叶斯

1、原理是贝叶斯定理，利用已知条件概率，求逆条件概率。 2、需要数值型或者布尔型数据 #创建词汇表 def createVocab(dataset): vocabset = set([]) for sets in dataset: vocabset = vocabset | set(sets) return vocabset #创建文档向量 def ...

2018-09-15 11:14:56 95

原创一只菜鸡的决策树入门（三）

画树完成之后，发现数据形式的树很难直观的看出其中的分类决策，尤其当参与分类的特征较多的情况下。个人工作是做信贷风控决策，碰到的特征变量数不胜数，简直头疼，书上选用matplotlib库的注解功能尝试绘制属性图，这个库之前入门python的时候就了解过，参数实在是太多，比较烦，用来试试。以文本注解的形式绘制树的节点： from matplotlib import py...

2018-08-11 17:52:41 182

原创一只菜鸡的决策树入门（二）

前期准备的基础理论，熵的计算，按照给定特征划分数据集，找出划分数据集的最优特征，但有些时候，数据集处理了所有属性，不过得到的类标签依然不是唯一的，书上说用之前KNN里面涉及的频次统计方法，遵从少数服从多数给该叶子节点分类， import operator def majorKind(dataList): majorFeat = {} for featVec in da...

2018-07-27 19:18:12 313

对于一个python入门级，统计概率学一般并且还要上班搬砖的人来说，机器学习是真痛苦啊。 1、对于决策树的理解，书上有一个简明的例子，二十个问题游戏，参与者脑子里有一个事物，其他人提问20次用来缩小事物所在范围，最终给出答案，因此决策树更像是根据已知条件从而预测结果的一种模型。树上的每一个分叉路径代表某个特征，每个叶子节点对应从根节点到叶子节点所经历的特征的值。 2、ID3算法，基于奥卡姆剃刀...

2018-07-26 19:41:39 189

原创一只菜鸡的KNN入门

路漫漫其修远兮，希望不要漏洞百出，记录一下。 1、算法核心理论：欧式距离计算公式 : ，计算测试样本与训练样本之间的距离，维度越多，根号下的算式越多。 def classify0(testsamp,trainsamp,labels,K): trainsize = trainsamp.shape[0] diff = tile(testsamp,(tr...

2018-07-24 16:06:24 249

Oldog_1991的博客