- 博客(0)
- 资源 (6)
空空如也
Hadoop in Action
第一部分 Hadoop 分布式的编程框架
第一章 Hadoop 简介
1、philosophy: move-code-to-data,适合数据密集性应用。
2、SQL database VS Hadoop:
1) SCALE-OUT INSTEAD VS SCALE-UP
2) Key/value对 VS 关系表:无结构、半结构数据 VS 结构化的数据
3)函数式编程(MapReduce) VS 声明式编程(SQL):hive can map the sql to the job
4)离线批处理 VS 在线事务处理
3、理解MapReduce
1)2个阶段:
map:转换+过滤数据: <k1, v1> -> list(<k2, v2>)
reduce:<k2, list(v2)> -> list(<k3, v3>)
map和reduce之间按照key进行group,hadoop负责处理、只需要写map和reduce程序
2)word count 例子
2015-05-31
信息检索导论
Christopher DManning,斯坦福大学语言学博士,现任斯坦福大学计算机科学和语言学副教授,主要研究方向是统计自然语言处理、信息提取与表示、文本理解和文本挖掘等。
Prabhakar Raghavan,加州大学伯克利分校博士,现任Yahoo!实验室主任,斯坦福大学计算机科学系顾问教授,是ACM和IEEE会士。主要研究兴趣是文本及Web数据挖掘、算法设计等。此前,他曾任Verity公司CTO,并在旧M研究院担任过管理工作。
2015-05-31
wireshark(网络抓包)
ireshark(前称Ethereal)是一个网络封包分析软件。网络封包分析软件的功能是撷取网络封包,并尽可能显示出最为详细的网络封包资料。Wireshark使用WinPCAP作为接口,直接与网卡进行数据报文交换。
网络封包[1] 分析软件的功能[1] 可想像成 "电工技师使用电表来量测电流、电压、电阻" 的工作 - 只是将场景移植到网络上,并将电线替换成网络线。在过去,网络封包分析软件是非常昂贵,或是专门属于营利用的软件。Ethereal的出现改变了这一切。在GNUGPL通用许可证的保障范围底下,使用者可以以免费的代价取得软件与其源代码,并拥有针对其源代码修改及客制化的权利。Ethereal是目前全世界最广泛的网络封包分析软件之一。
2015-05-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人