自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 面向高维和不平衡数据分类的集成学习研究论文研读笔记

高维不平衡数据的英文指特征(属性)较多,类标号中的类别分布不均匀的数据。 高维数据分类难问题:1.密度估计难问题;2.维数灾难;3.Hughes问题。不平衡数据的分类困难的本质原因:1. 不恰当的评估标准;2. 数据稀疏;3. 数据碎片;4. 不恰当的归纳偏差;5.噪声。分类中的数据不平衡有两种:类间不平衡和类内不平衡。高维数据分类有两种解决思路:(1)在预处理阶段降维,减少特征数量;(2)设计适...

2018-05-15 17:09:54 1556

原创 基于机器学习算法的糖尿病预测模型研究论文研读笔记

ROC(受试者工作特征曲线):反映敏感性和特异性这两个连续变量的综合指标。AUC代表ROC曲线下方面积大小,一般在0.5~之间,越接近1越好。AUC计算公式:AUC =(1-(FP/(FN+TN)*(FN/(TP+FP))/2))/2AUC能较好得评估预测值和真实值之间的差异。常见的预测方法如下:1. 回归预测法(适合中长期的预测,需大量的样本);2. 时间序列预测法(适合短期预测);3. 灰色系...

2018-05-15 12:32:27 5728

原创 基于特征选择的数据降维算法(笔记)

1.Relief算法:一种特征权重算法,利用特征和泪别的相关性对特征进行权重赋值,移除权重小于阈值的特征。其局限性是仅能处理二元分类问题。2.ReliefF算法:对Relief算法的改进与扩展,支持处理多元分类数据。但是可能为冗余特征赋予权值,即算法的局限性在于不能有效的去除特征间的冗余性。特征选择一般有以下三种方法:过滤法(Relief算法)、封装法、嵌入法。数据降维常用方法:主成分分析法(PC...

2018-05-14 23:11:18 2115

转载 Mahalanobis距离(马氏距离)的“哲学”解释

基础知识:假设空间中两点x,y,定义:欧几里得距离,Mahalanobis距离,不难发现,如果去掉马氏距离中的协方差矩阵,就退化为欧氏距离。那么我们就需要探究这个多出来的因子究竟有什么含义。马氏距离直观含义:Mahalanobis距离是表示数据的协方差距离. 马氏距离计算公式:sqrt( (x-μ)'Σ^(-1)(x-μ) ) ...

2018-04-26 17:06:32 344

转载 谱聚类(spectral clustering) python可视化实现

算法python实现:对于公式的推导什么的个人的理解并不是很深,下面直接说说这个算法的实现吧:首先,因为这个算法其实最先是叫做谱方法,用于社区挖掘或者图挖掘,所以要用在聚类上,你需要一种东西来对样本直接进行连接,实现一个类似于图一样的结构,这里使用knn,就是前k个近邻就有连通,其他就没有。这样我们就能得到矩阵W,不过,有一个小问题,点a的k近邻中有b,但是b的k近邻可能是没有a的,这个时候,为了...

2018-04-26 16:54:15 1712

转载 初识谱聚类SpectralClustering

SpectralClustering重要参数与调参注意事项    1)n_clusters:代表我们在对谱聚类切图时降维到的维数(原理篇第7节的k1),同时也是最后一步聚类算法聚类到的维数(原理篇第7节的k2)。也就是说scikit-learn中的谱聚类对这两个参数统一到了一起。简化了调参的参数个数。虽然这个值是可选的,但是一般还是推荐调参选择最优参数。    2) affinity: 也就是我们...

2018-04-26 16:08:22 824

翻译 英语作文_网络问题

    In recent years, people are developing an inseparable relationship with the Internet. As is vividly depicted in the picture, it is convenient for us to click the mouse when surfing on-line, either...

2018-04-24 15:31:40 1251

原创 Python利用Numpy读取文本文件,存储文本文件

# Author: Baozi#-*- codeing:utf-8 -*-'''数据文件:ttt.txt内容:(以空格分开每个数据)0.26 1.00 0.410.57 0.40 0.140.04 0.72 0.45'''import numpy,sysdef matrix_transpose(inpath,outpath): matrix = numpy.loadtxt...

2018-04-24 12:29:58 6525 1

转载 Python元类理解_笔记

两句话掌握python最难知识点——元类转载自:https://segmentfault.com/a/1190000011447445千万不要被所谓“元类是99%的python程序员不会用到的特性”这类的说辞吓住。因为每个中国人,都是天生的元类使用者学懂元类,你只需要知道两句话:道生一,一生二,二生三,三生万物我是谁?我从哪来里?我要到哪里去?在python世界,拥有一个永恒的道,那就是“type...

2018-04-18 13:23:42 142

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除