自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 LDA的直观解释

这篇文章是之前(很久之前了……)看LDA的时候的一些想法,关于LDA介绍的文章很多,推导得很详细的也不少,然而总是觉得不够直观,所以从另外一个角度来考虑了一下这个问题。如果我这里的想法没错的话,我猜LDA的原始论文里可能已经提及了这种解释,不过懒得去翻paper了。缘起首先介绍一下LDA。LDA是文本分析里面一个很有名的topic model,它基于一个很简单的词袋模型,通过概率建模,

2016-07-13 22:51:03 7963 1

原创 频繁项集&频繁闭项集&最大频繁集

频繁项集&频繁闭项集&最大频繁集

2016-06-24 23:37:36 23136

原创 离散特征之间的相关性

在数据挖掘的时候,有时候我们会想计算不同特征之间的相关,比如在建模时用来减少冗余特征。连续特征之间的相关性很简单,用皮尔逊相关就可以了,是非常通用且有效的方法。但是在实践里面,大部分时候我们处理的是离散特征,所以这里想提出一个离散特征之间的相关计算办法。这是之前在看决策树C4.5的时候想到的一个思路,就是离散特征之间的相关,可以用决策树的经典算法中的信息增益和信息增益比来描述。

2016-06-22 21:33:42 33791 17

原创 聚类算法实践(五)——真实Dataset测试

在之前的文章里,讨论了一些聚类算法的基本思路,并针对人为构造的数据进行了测试。然而,真实的数据毕竟不同于人工数据。在对现实数据进行聚类的时候,有时候不知道哪些特征才是最关键的,因此多少会掺杂一些无关的特征,这样,就会“稀释”不同类别之间的差别。所以,这些聚类算法最后还要针对真实的数据集做一个测试。   这里我采用的是已知分类的几个数据集wine,ecoli和breast-cancer-wiscon

2016-06-02 20:28:17 4626 1

原创 聚类算法实践(四)——算法总结

前面的文章里总共提到了7种聚类算法,我们就会情不自禁地想知道,哪一种是“最好”的聚类算法?正如我在一开始就提到,聚类实际上是由用户来给定规则,从而实现分类的。所以所谓“最好”的聚类算法,就应该是那个聚类规则“最能反映系统特征”的算法(当然,在同样能反映系统特征的情况下,效率越高自然越好,比如AP算法就要优于K-centers算法)。在聚类算法中,最为关键的规则是什么呢?我个人认为,应该就是对样品相似

2016-06-02 20:25:06 1945

原创 聚类算法实践(三)——PCCA、SOM、Affinity Propagation

这篇日志是这个系列里算法部分的最后一篇,关注的是几个相对另类一点的聚类算法:PCCA、SOM和Affinity Propagation。PCCA是设计来专门用于马尔科夫模型的一种聚类算法;SOM是基于神经网络模型的自组织聚类;最后的Affinity Propagation则是在07年才在Science发表的一种较新颖的算法。

2016-06-02 20:18:59 7763 3

原创 聚类算法实践(二)——谱聚类、Chameleon聚类

上一篇文章里说到的层次聚类和K-means聚类,可以说是聚类算法里面最基本的两种方法(wiki的cluster analysis页面都把它们排前两位)。这次要探讨的,则是两个相对“高级”一点的方法:谱聚类和chameleon聚类。

2016-06-01 20:43:29 11991 3

原创 聚类算法实践(一)——层次聚类、K-means聚类

因为百度云的文章里面有些图片丢失了,想起这篇东西之前被一个中国统计网转发过,所以自己搜了一下想直接把图搞回来,结果发现到处转载的也有不少,自己现在发倒好像是抄袭似的。其实这篇文章里面特别有价值的东西不算太多,PCCA算是一个知道的人不多而且也挺有意义的算法,谱聚类的物理解释也算值得说说,之所以被转载可能是因为图多,而且看起来像比较系统吧。

2016-05-25 21:03:13 20629 1

原创 时隔两年的博客重生

几年前,在我还没有毕业的时候,曾经在百度空间写过一个数据挖掘的技术blog。其实当时主要的目的,是为了找工作方便。自己作为一个非这个专业出身的人,在履历上并没什么特别亮点,所以需要一点东西证明自己并非一个彻底的门外汉。另一方面,技术的东西直接写在纸上,展示出来也远比面试的时候胡侃方便。结果实际找工作的时候,基本没有用到,只有后来微信来找我的时候,看到他们的招聘要求太高大上,给他们看了一下,确认一下

2016-05-24 20:18:15 368

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除