自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Logistic回归(二)

(一)中的算法在数据集庞大且特征较多的情况下,计算开销很大很复杂,故需要对算法稍作改进调整,避免之前的问题,且使所求系数尽快达到稳定值,一个好方法是采用随机梯度上升算法: # 随机梯度上升算法 def stocgradascent(datamatrix, classlabels, number=100): m, n = shape(datamatrix) # 之前是矩阵乘法,每...

2018-09-19 23:59:52 148

原创 Logistic回归(一)

     书上介绍,属于最优化算法,也确实如此,就像怎么工作时间短并且又做得好一样。 主要思想是:根据现有数据对分类边界线建立回归公式,以此分类。因为需要计算距离,需要数值型数据;因为工作原因,挑选的数据需要预测性强、容易获得、容易解读等等,算法的大部分时间用于训练,为了找到最佳的回归系数。      因为个人数学极差,理解公式很费劲,书中的越阶函数其实就是一个分类函数而已,可以根据自己的需要设...

2018-09-17 23:44:08 161

原创 朴素贝叶斯

1、原理是贝叶斯定理,利用已知条件概率,求逆条件概率。 2、需要数值型或者布尔型数据 #创建词汇表 def createVocab(dataset): vocabset = set([]) for sets in dataset: vocabset = vocabset | set(sets) return vocabset #创建文档向量 def ...

2018-09-15 11:14:56 95

原创 一只菜鸡的决策树入门(三)

      画树完成之后,发现数据形式的树很难直观的看出其中的分类决策,尤其当参与分类的特征较多的情况下。个人工作是做信贷风控决策,碰到的特征变量数不胜数,简直头疼,书上选用matplotlib库的注解功能尝试绘制属性图,这个库之前入门python的时候就了解过,参数实在是太多,比较烦,用来试试。       以文本注解的形式绘制树的节点: from matplotlib import py...

2018-08-11 17:52:41 182

原创 一只菜鸡的决策树入门(二)

    前期准备的基础理论,熵的计算,按照给定特征划分数据集,找出划分数据集的最优特征,但有些时候,数据集处理了所有属性,不过得到的类标签依然不是唯一的,书上说用之前KNN里面涉及的频次统计方法,遵从少数服从多数给该叶子节点分类, import operator def majorKind(dataList): majorFeat = {} for featVec in da...

2018-07-27 19:18:12 313

原创 一只菜鸡的决策树入门(一)

对于一个python入门级,统计概率学一般并且还要上班搬砖的人来说,机器学习是真痛苦啊。 1、对于决策树的理解,书上有一个简明的例子,二十个问题游戏,参与者脑子里有一个事物,其他人提问20次用来缩小事物所在范围,最终给出答案,因此决策树更像是根据已知条件从而预测结果的一种模型。树上的每一个分叉路径代表某个特征,每个叶子节点对应从根节点到叶子节点所经历的特征的值。 2、ID3算法,基于奥卡姆剃刀...

2018-07-26 19:41:39 189

原创 一只菜鸡的KNN入门

路漫漫其修远兮,希望不要漏洞百出,记录一下。  1、算法核心理论: 欧式距离计算公式  :         ,计算测试样本与训练样本之间的距离,维度越多,根号下的算式越多。 def classify0(testsamp,trainsamp,labels,K): trainsize = trainsamp.shape[0] diff = tile(testsamp,(tr...

2018-07-24 16:06:24 249

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除