自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 vim注释颜色看不清 修改主题

倒叙法,重要的放前面修改/etc/vimrc或者~/.vim/vimrc文件,按G跳到最后,插入下面的代码colorscheme elflord主题有很多,可以自己选,推荐 elflord和slate,在vim命令行里执行 colorscheme 主题名字 可以更快的调试自己喜欢的颜色---------分割线 ----不重要的内容----------------------...

2019-09-24 13:43:58 1149

原创 两个一维稀疏矩阵之间的距离计算

在sklearn中没有找到能够直接针对稀疏矩阵进行聚类的方法,自己先写了个距离计算def cal_distance(coo1,coo2): '''计算两个COO格式稀疏向量欧式距离''' common = set(arr1.col)&set(arr2.col) unique1 = set(arr1.col)-set(arr2.col) unique2 ...

2018-07-30 15:34:12 1064 1

原创 Python求解行列式

COUNT=0res = []def perm(n,begin,end): global COUNT global res if begin>=end: # print(n,end='\t') # print(inverse(n)) res.append((n.copy(),inverse(n))) ...

2018-07-27 16:40:02 6004 1

原创 PR曲线下面积计算

 参加携程一个数据竞赛,要按PR曲线下面积进行评估,简单写了个评估模型的函数,其中的label参数是按照预测得分排序后的目标值(0,1)列表def pr_area(label): '''PR曲线 r值在0.05-0.5之间的面积''' pr = list() pos = label.count(0) neg = label.count(1) tp = ...

2018-07-17 19:51:34 6347

原创 二元数据相似性度量的两个系数(如果发现其他的再加)

简单匹配系数(simple matching coefficient)jaccard系数(jaccard coefficient)第二个系数是用来处理不对称属性的

2018-06-21 17:30:28 2007

原创 用熵进行连续属性离散化

今天在数据挖掘导论上看到了用熵对连续数据进行离散化的方法,基本思想是利用熵的大小来表示划分后数据集的纯度,熵越小,数据纯度越大,得到的离散数据可用性就更高具体做法是:先把数据集划分为两部分,计算两部分的熵的和,在熵最小的地方划分,然后对熵最大的那部分重复此步骤,直到满足用户需要的数据集个数附熵的计算公式:E = Σ-Pi·log2PiPi表示第i类在数据区间中出现的概率,计算多个区间的这个公式求和...

2018-06-21 15:26:01 7182

原创 特征选择的三种方法,后面会完善详细的算法

特征选择方法大致分为三类:过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)过滤式:先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习过程无关,比较著名的是relief(relevant features)方法包裹式:包裹式特征选择直接把最终将要使用的模型性能作为特征子集的评价准则。因此他比过滤式选择要好,但是因为在特征选择过程中要多次训练学习器,因此开销...

2018-06-20 16:52:56 11353 3

转载 kmeans初始中心点的几种选择方法

1.多次选取中心点进行多次试验,并用损失函数来评估效果,选择最优的一组;2.选取距离尽量远的K个样本点作为中心点:随机选取第一个样本C1作为第一个中心点,遍历所有样本选取离C1最远的样本C2为第二个中心点,以此类推,选出K个初始中心点;3.特别地,对于像文本这样的高维稀疏向量,我们可以选取K个两两正交的特征向量作为初始化中心点。参考链接:https://blog.csdn.net/liangtin...

2018-04-08 17:48:59 12246

中文停用词表

中文的停用词列表, 可以用于处理文本数据,文件中每行是一个停用字/词,本人新加入了一些字符

2018-05-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除