- 博客(11)
- 资源 (4)
- 收藏
- 关注
翻译 数据挖掘十大算法翻译——10CART
1984年的由Leo Breiman,Jerome Friedman,Richard Olshen和Charles Stone 共同发表的著作“CART:Classification and Regression Trees,”是人工智能,机器学习,无参数统计和数据挖掘中的一个里程碑。由于对于决策树的理解,引入的技术创新,高超的树结构数据分析的使用和对于树的大样本理论的权威处理,这个著作具有重要的地
2016-02-28 15:38:32 1030
翻译 数据挖掘十大算法翻译——9朴素贝叶斯
1 介绍给定一个对象集合,已知他们的变量向量和所属类别。我们的目标是创建一个规则,给定一个新的对象的输入向量,通过这个规则,我们能够预测他的类别。这样的问题叫做监督式分类,目前有很多用于监督式分类的方法被创造和发展。其实有一个很重要的就是朴素贝叶斯(naiveBayes).同时也被成为idiot‘s Bayes,simple Bayes和independence Bayes。这个方法之所以很重要,主
2016-01-28 00:50:46 861
翻译 数据挖掘十大算法翻译——8kNN(k邻近分类)
1 算法描述机械分级器,记录了所有的数据,而且仅当测试的对象吻合训练对象的所有属性时才能进行分类,他是目前最简单的分类器之一,也是最琐碎的分类器之一。这样做的明显的缺点之一就是很多数据无法进行分类,因为他们不能精确的匹配训练数据。一个更加高明的手电,k邻近分类(KNN),找到k个相互最接近的对象的群,然后把这个群中的具有优势的哪一类作为这个领域的标签。这个方法有三个关键元素: 有标签的对象的集合,
2015-12-22 23:43:51 1408
翻译 数据挖掘十大算法翻译——7AdaBoost
1 算法描述集成学习用于处理使用了多个学习者来解决一个问题的方法。通过一个集成的泛化能力会比单个的学习者要强,因此,集成方法充满了吸引力。由于坚固的理论基础,非常高的准确率,十分简便(Schapire说他只需要10行代码)和广泛的成功的应用,由Yoav Freund 和Robert Schapire所发表的AdaBoost算法是目前最重要的集成方法之一。令X表示实例空间,y表示类别的标签。假设y={
2015-12-21 16:28:10 788
原创 MAHOUT入门(一)——环境变量的配置
mahout环境变量的配置 包括了jdk的配置 hadoop的配置 maven的配置mahout的配置
2015-12-11 23:34:48 3115
翻译 数据挖掘十大算法翻译——6PageRank
1 总览PageRank是由Sergey Brin和Larry Page在1998年4月的第七届国际全球广域网会议(WWW7)中提出的。它是一个使用超链接的搜索排序算法。基于这个算法,他们穿在了Google搜素引擎,并且取得了巨大的成功。现在,每个搜索引擎都有自己的基于超链接的排序算法。PageRank产生一个网页的静态排行,也就是说PageRank离线的计算每个页面,并且不依赖于查询。通过使用大量
2015-12-08 16:58:36 682
翻译 数据挖掘十大算法翻译——5EM算法
EM算法有限混合分布为随机现象观察到的数据提供了建模和聚类的灵活方法。这里我们专注于普通混合模型的使用,它可以用于对连续的数据进行聚类同时估计潜在的密度函数。这些混合模型可以通过经由EM(Expection-Maximization)算法的最大似然概率来拟合。1 介绍有限混合模型正在越来越多的被用于随机现象的广泛可能的分布的建模和数据集合的聚类。这里我们考虑聚类的分析。 我们让p维的向量(y=(y
2015-12-03 15:22:26 906
翻译 数据挖掘十大算法翻译——4Apriori算法
1算法描述数据挖掘方法中最流行的方法之一就是从事务数据集中找到频繁的物品集合并且推到出关联规则。由于组合的复杂性,找到一个频繁的项集(拥有高于或者等于一个用户的特定最低需求的食物集合)并不是一件容易的事情。一旦获取了物品集,要产生大于或者等于用户特定最小信心的信心的关联规则也很容易产生。 Apriori 是一个使用候选集找到频繁项集的种子算法。使用“如果一个项集不是频繁的,它的任何父集也不是是频繁
2015-11-25 21:27:34 1050
翻译 数据挖掘十大算法翻译——3SVM
介绍 在今天的机器学习应用之中,支持向量机(svm)是一定值得尝试的。在所有著名的算法中,它提供了最健壮和准确的方法。它有出名的理论基础,只需要为数不多的训练样本并且对于维数不敏感。除此之外,训练SVM的有效方法在正在飞速发展。 在一个二类分类问题中,SVM的目标是找到能够区分训练数据中的两个类的最好的分类函数。“最好”这个标准可以通过集合来进行认知。对于一个线性可分的数据集合,一个线性的分
2015-11-24 16:11:08 637
翻译 数据挖掘十大算法翻译——2K-means
1 算法K-means算法是一个能够将给定的数据集分为用户定义的数量k个类的简单的迭代算法。很多研究者从不同的研究方向都发现了这个算法,其中特别显著的由Lloyed,Forgey,Friedman和Rubin,和McQueen。k-means的详细历史要追溯到下面的几个改变。Gray和Neuboff将k-means置于爬山算法的环境中为其提供了一个良好的历史背景。 这个算法作用在d维的向量上,D=
2015-11-23 15:03:25 1484
Javassistjar包
2015-11-17
嵌入式系统软件教程(An Embedded Software Primer) 答案
2013-09-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人