- 博客(6)
- 资源 (4)
- 收藏
- 关注
原创 Spark编程笔记
这里记录一些Spark/Scala编程上的小问题,以便以后查询。关于objectFileRDD里面有一个saveAsObjectFile方法,可以用于将对象序列化后存到HDFS上。另外有一个objectFile方法,可以将数据反序列化回来。注释说这还是试验性的存储格式,但是用起来非常方便。使用时需要注意,调用objectFile时必须指定对象类型,否则可能会
2015-09-14 15:14:55 394
原创 关于Linux文件cache
执行free -mh 命令,可以看到如下显示:总内存15G,显示使用了14G,剩余只有466M。这是因为Linux自动管理了Cache造成的。特别注意下第二行,这是什么意思呢?解释如下-buffers/cache = used - buffers - cached,这个是应用程序真实使用的内存大小+buffers/cache = free + buffers + cache
2015-09-09 19:19:37 915
转载 ubuntu 中文繁体简体转换
最近对维基中文数据进行一些统计,发现中文繁体简体混杂,需要把词条规范成简体中文。记录下cconv这个工具。cconv建立在iconv之上,增加了词语转换能力,效果分析见后面。Ubuntu用户可以用命令sudo apt-get install cconv安装。命令说明如下:Chinese-Convert Tool. Version 0.6.2 (inside libcconv
2014-10-16 12:13:21 1474
转载 数据挖掘10大算法(1)——PageRank
数据挖掘10大算法(1)——PageRank1. 前言这系列的文章主要讲述2006年评出的数据挖掘10大算法(见图1)。文章的重点将偏向于算法的来源以及算法的主要思想,不涉及具体的实现。如果发现文中有错,希望各位指出来,一起讨论。 图1 来自IDMer的文章
2013-09-03 09:39:08 729
转载 机器学习与人工智能学习资源导引
来源:http://blog.csdn.net/pongba/article/details/2915005我经常在 TopLanguage 讨论组上推荐一些书籍,也经常问里面的牛人们搜罗一些有关的资料,人工智能、机器学习、自然语言处理、知识发现(特别地,数据挖掘)、信息检索 这些无疑是 CS 领域最好玩的分支了(也是互相紧密联系的),这里将最近有关机器学习和人工智能相关的一些学习资源归一
2012-08-07 14:54:49 911
卡内基梅陇概率统计(Probability and Statistics (4th Edition) by Morris H. DeGroot)
2014-07-30
机器学习Tom Mitchell经典教材第二版最新章节英文版
2012-08-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人