XionChen-CSDN博客

翻译数据挖掘十大算法翻译——10CART

1984年的由Leo Breiman,Jerome Friedman,Richard Olshen和Charles Stone 共同发表的著作“CART:Classification and Regression Trees,”是人工智能，机器学习，无参数统计和数据挖掘中的一个里程碑。由于对于决策树的理解，引入的技术创新，高超的树结构数据分析的使用和对于树的大样本理论的权威处理，这个著作具有重要的地

2016-02-28 15:38:32 1030

翻译数据挖掘十大算法翻译——9朴素贝叶斯

1 介绍给定一个对象集合，已知他们的变量向量和所属类别。我们的目标是创建一个规则，给定一个新的对象的输入向量，通过这个规则，我们能够预测他的类别。这样的问题叫做监督式分类，目前有很多用于监督式分类的方法被创造和发展。其实有一个很重要的就是朴素贝叶斯(naiveBayes).同时也被成为idiot‘s Bayes，simple Bayes和independence Bayes。这个方法之所以很重要，主

2016-01-28 00:50:46 861

翻译数据挖掘十大算法翻译——8kNN（k邻近分类）

1 算法描述机械分级器，记录了所有的数据，而且仅当测试的对象吻合训练对象的所有属性时才能进行分类，他是目前最简单的分类器之一，也是最琐碎的分类器之一。这样做的明显的缺点之一就是很多数据无法进行分类，因为他们不能精确的匹配训练数据。一个更加高明的手电，k邻近分类（KNN），找到k个相互最接近的对象的群，然后把这个群中的具有优势的哪一类作为这个领域的标签。这个方法有三个关键元素：有标签的对象的集合，

2015-12-22 23:43:51 1408

翻译数据挖掘十大算法翻译——7AdaBoost

1 算法描述集成学习用于处理使用了多个学习者来解决一个问题的方法。通过一个集成的泛化能力会比单个的学习者要强，因此，集成方法充满了吸引力。由于坚固的理论基础，非常高的准确率，十分简便（Schapire说他只需要10行代码）和广泛的成功的应用，由Yoav Freund 和Robert Schapire所发表的AdaBoost算法是目前最重要的集成方法之一。令X表示实例空间，y表示类别的标签。假设y={

2015-12-21 16:28:10 788

原创 MAHOUT入门（一）——环境变量的配置

mahout环境变量的配置包括了jdk的配置 hadoop的配置 maven的配置mahout的配置

2015-12-11 23:34:48 3115

翻译数据挖掘十大算法翻译——6PageRank

1 总览PageRank是由Sergey Brin和Larry Page在1998年4月的第七届国际全球广域网会议（WWW7）中提出的。它是一个使用超链接的搜索排序算法。基于这个算法，他们穿在了Google搜素引擎，并且取得了巨大的成功。现在，每个搜索引擎都有自己的基于超链接的排序算法。PageRank产生一个网页的静态排行，也就是说PageRank离线的计算每个页面，并且不依赖于查询。通过使用大量

2015-12-08 16:58:36 682

翻译数据挖掘十大算法翻译——5EM算法

EM算法有限混合分布为随机现象观察到的数据提供了建模和聚类的灵活方法。这里我们专注于普通混合模型的使用，它可以用于对连续的数据进行聚类同时估计潜在的密度函数。这些混合模型可以通过经由EM（Expection-Maximization）算法的最大似然概率来拟合。1 介绍有限混合模型正在越来越多的被用于随机现象的广泛可能的分布的建模和数据集合的聚类。这里我们考虑聚类的分析。我们让p维的向量（y=（y

2015-12-03 15:22:26 906

翻译数据挖掘十大算法翻译——4Apriori算法

1算法描述数据挖掘方法中最流行的方法之一就是从事务数据集中找到频繁的物品集合并且推到出关联规则。由于组合的复杂性，找到一个频繁的项集（拥有高于或者等于一个用户的特定最低需求的食物集合）并不是一件容易的事情。一旦获取了物品集，要产生大于或者等于用户特定最小信心的信心的关联规则也很容易产生。 Apriori 是一个使用候选集找到频繁项集的种子算法。使用“如果一个项集不是频繁的，它的任何父集也不是是频繁

2015-11-25 21:27:34 1050

翻译数据挖掘十大算法翻译——3SVM

介绍　　在今天的机器学习应用之中，支持向量机（svm）是一定值得尝试的。在所有著名的算法中，它提供了最健壮和准确的方法。它有出名的理论基础，只需要为数不多的训练样本并且对于维数不敏感。除此之外，训练SVM的有效方法在正在飞速发展。　　在一个二类分类问题中，SVM的目标是找到能够区分训练数据中的两个类的最好的分类函数。“最好”这个标准可以通过集合来进行认知。对于一个线性可分的数据集合，一个线性的分

2015-11-24 16:11:08 637

翻译数据挖掘十大算法翻译——2K-means

1 算法K-means算法是一个能够将给定的数据集分为用户定义的数量k个类的简单的迭代算法。很多研究者从不同的研究方向都发现了这个算法，其中特别显著的由Lloyed，Forgey，Friedman和Rubin，和McQueen。k-means的详细历史要追溯到下面的几个改变。Gray和Neuboff将k-means置于爬山算法的环境中为其提供了一个良好的历史背景。这个算法作用在d维的向量上，D=

2015-11-23 15:03:25 1484

翻译数据挖掘十大算法翻译——1决策树

算法介绍

2015-11-22 18:42:41 1813 1

weka 稳定版3-6-13 (包括32位和64位)

从官网下载的稳定版的weka，压缩包包括了64位和32位的安装程序，支持jdk1.7，需要安装java jdk 才能运行

2015-11-22

Javassistjar包

avassist是一个开源的分析、编辑和创建Java字节码的类库。是由东京工业大学的数学和计算机科学系的 Shigeru Chiba （千叶滋）所创建的。它已加入了开放源代码JBoss 应用服务器项目,通过使用Javassist对字节码操作为JBoss实现动态"AOP"框架。关于java字节码的处理，目前有很多工具，如bcel，asm。不过这些都需要直接跟虚拟机指令打交道。如果你不想了解虚拟机指令，可以采用javassist。javassist是jboss的一个子项目，其主要的优点，在于简单，而且快速。直接使用java编码的形式，而不需要了解虚拟机指令，就能动态改变类的结构，或者动态生成类。

2015-11-17

jdk1.5源码

jdk1.5的源码，发现网上没有现成的，所以我安装以后从java里面拷贝出来的。jdk1.5应该很好找，但是源码不好找。就上传了一份

2015-11-05

嵌入式系统软件教程（An Embedded Software Primer）答案

嵌入系统软件教程答案（An Embedded Software Primer）机械工业出版社答案

2013-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹