chenhengcs-CSDN博客

原创基于海量数据的关联规则挖掘（一）

关联规则是数据挖掘技术的一个活跃的研究方向之一，其反映出项目集之间有意义的关联关系。关联规则可以广泛地应用于各个领域，既可以检验行业内长期形成的知识模式，也能够发现隐藏的新规律。有效地发现、理解和运用关联规则是数据挖掘任务的一个重要手段。在处理大量数据时，很重要的一点是要理解不同实体间相互关联的规律。通常，发现这些规律是个极为复杂的过程。关联规则是一种十分简单却功能强大的、描述数据集的规则，这

2014-01-13 12:17:17 1485 1

原创基于海量数据的关联规则挖掘（十二）

参考文献1 R. Agrawal, T. Imielinski, and A. Swami. Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of data, pp. 207-216, 1993.

2014-01-13 16:14:41 813

原创基于海量数据的关联规则挖掘（十一）

3其他的频集挖掘方法上面我们介绍的都是基于Apriori的频集方法。即使进行了优化，但是Apriori方法一些固有的缺陷还是无法克服：可能产生大量的候选集。当长度为1的频集有10000个的时候，长度为2的候选集个数将会超过10M。还有就是如果要生成一个很长的规则的时候，要产生的中间元素也是巨大量的。无法对稀有信息进行分析。由于频集使用了参数minsup，所以就无法对小于minsup

2014-01-13 12:23:49 720

原创基于海量数据的关联规则挖掘（十）

2.3基于划分的方法使用划分的方法是处理海量数据的管理规则的另一个有效的方法。不同于基于采样的方法，该方法能够对数据集上所有数据进行处理。Savasere,Omiecinski, and Navathe算法[2]我们的下一个算法同时避免了false negatives和false positives，所带来的代价是需要两个完全的步骤。该算法叫做SON算法，为三个作者名字的简称。其思想是

2014-01-13 12:23:20 1534

原创基于海量数据的关联规则挖掘（九）

Toivonen的算法[8]这个算法给出另一种不同的随机抽样算法。Toivonen算法在给出足够内存的情况下，在小样本上进行一步处理，接着再整个数据上进行一步处理。这个算法不会带来false negatives，也不会带来false positives，但是这里存在一个小的概率使得算法会产生不了任何结构。这种情况下算法需要重复直至找到一个结果，虽然如此，得到最终频繁项集的处理的平均步数不会

2014-01-13 12:22:53 1386

原创基于海量数据的关联规则挖掘（八）

2.2基于采样的方法前面所讨论的频繁项都是在一次能处理的情况。如果数据量过大超过了主存的大小，这就不可避免的得使用k步来计算频繁项集。这里有许多应用并不需要发现所有的频繁项。比方说在超市，我们只要找到大部分的销售频繁关联项就够了，而不必找出所有的频繁项。在这一节，我们介绍几种算法来找到所有或大部分的项集使用两步。我们首先从使用一个简单的数据样本开始，而不是整个数据集。一个算法

2014-01-13 12:22:22 774

原创基于海量数据的关联规则挖掘（七）

Multihash 算法有时我们从multistage算法的额外的步骤中获取好处。这个PCY的变形叫做Multihash[7]算法。不同于在连续的两个步骤中使用两个哈希表，该算法在一步中使用两个哈希算法和两个分离的哈希表。如表6.7所述。在同一步里使用两个hash表的危险是每个哈希表仅有PCY算法的一半的桶。只要PCY算法的桶的平均计数比支持度阈值低，我们就可以预见大部分的桶都是非频繁桶，

2014-01-13 12:21:40 1036

原创基于海量数据的关联规则挖掘（六）

Mutistage 算法[7]：Multistage算法是在PCY算法的基础上使用一些连续的哈希表来进一步降低候选项对。相应的，Multistage需要不止两步来寻找频繁项对。Multistage算法的框图描述在图5.3中。 Multistage的第一步跟PCY的第一步相同。在第一步后，频繁桶集也被压缩为bitmap，这也和PCY相同。但是在第二步，Multistage不计数候

2014-01-13 12:21:12 831

原创基于海量数据的关联规则挖掘（五）

2.1基于hash的方法首先是基于哈希的算法。基于哈希的算法仍是将所有所有数据放入内存的方法。只要在计算的过程中能够满足算法对内存的大量需求，Apriori算法能够很好的执行。但在计算候选项集时特别是在计算候选项对C2时需要消耗大量内存。针对C2候选项对过大，一些算法提出用来减少C2的大小。这里我们首先考虑PCY算法，这个算法使用了在Apriori算法的第一步里大量没使用的内存。接着，我们考虑

2014-01-13 12:20:24 2202

原创基于海量数据的关联规则挖掘（四）

2针对海量数据的关联规则下面具体介绍几个Apriori算法的改进算法，这些算法可以用在海量数据上的关联规则挖掘中。（1）基于hash的方法。一个高效地产生频集的基于杂凑(hash)的算法由Park等[3]提出来。通过实验可以发现寻找频集主要的计算是在生成频繁2-项集Lk上，Park等就是利用了这个性质引入杂凑技术来改进产生频繁2-项集的方法。（2）基于划分的方法。Savasere等[2]设计了

2014-01-13 12:19:33 775

原创基于海量数据的关联规则挖掘(三)

1.2Apriori算法Apriori算法是挖掘关联规则的算法，是Agrawal等在1993年[1]设计的一个基本算法，其核心方法是基于频集理论的递推方法。这是一个采用两阶段频集的挖掘思想，并且基于多次扫描事务数据库来执行。正如算法名字，Apriori算法使用的是频繁项集性质的先验知识。Apriori算法的设计可以分解成两个步骤来执行挖掘：1、从事务数据库中挖掘出所有频繁项集。

2014-01-13 12:18:24 1112

原创基于海量数据的关联规则挖掘（二）

1关联规则挖掘基础在这一小节里，我们首先给出关联规则挖掘的一些基本概念和定义。这些概念和定义将会贯穿整个关联规则挖掘这一节。需要好好理解。接着我们给出关联规则的最基本也是最重要的算法APriori算法，其基本思想也是贯穿于整个章节。并且在接下来的针对海量数据的关联规则挖掘算法中都会看到算法影子，或在是该算法的改进，或者在算法中都会用到该算法的思想。1.1基本概念设I={i

2014-01-13 12:16:00 1076

贝叶斯垃圾邮件过滤

基于贝叶斯模型的垃圾邮件过滤程序，使用java语言，简洁、高效，容易理解。

2014-05-21

机器学习那些事

很不错的关于机器学习的讲解。本文译自Communications of the ACM 2012年第10期的“A Few Useful Things to Know About Machine Learning”一文。作者：佩德罗·多明戈斯（Pedro Domingos）译者：刘知远

2012-12-17

开源java神经网络组件Joone、Encog和Neuroph的简单使用

Joone、Encog 和 Neuroph是三个著名的开源的java的神经网络的组件，各有特点。这里给出了三个开源代码的基于XOR的训练和测试过程。对于初涉神经网络的程序员是个很好的学习资料。

2012-12-13

使用libsvm.jar库写的简单分类

简单的使用libsvm.jar包写的分类代码，代码虽简单，但对新人很有帮助，便于新人了解如何使用libsvm构造自己的分类器。简单的代码却包含了训练和预测所需的核心。对新手绝对有帮助。代码中已经包含了libsvm.jar，无需另外下载。

2012-12-12

ontobuilder

可以将模式（包括xml、html等）进行抽取和匹配的开源工具。

2012-11-10

The Validator.nu HTML Parser is an implementation of the HTML5 parsing algorithm in Java. The parser is designed to work as a drop-in replacement for the XML parser in applications that already support XHTML 1.x content with an XML parser and use SAX, DOM or XOM to interface with the parser.

2012-10-28

WordNet-InfoContent-2.1.tar.gz

Getting word stems with JWI and Wordnet. 此资源配合Wordnet资源使用。用来计算两个单词的相关性，或用来词根还原。

2012-10-26

基于LexRank的自动摘要代码

一个可以用来对评论进行自动摘要的小程序。稍作修改可以用来对文档进行自动摘要。并且使用到LexRank算法对句子的相似性进行投票打分，确定句子的重要性。代码可用，易扩展。

2012-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

glorychen1的专栏