- 博客(1)
- 资源 (11)
- 收藏
- 关注
转载 基于hadoop的网络爬虫设计1.0
一。用hadoop作网络爬虫的原因爬虫程序的海量计算特性要求必须要用分布式方式来实现。一般爬虫爬取的是整个互联网上的所有或部分数据,这个数据量一般是P byte级,至少也是T byte级,因此用分布式的方式来获取这是不二之选。在众多的分布式计算框架里hadoop绝对是个中翘楚,从hadoop的用户名单中可以看出hadoop的应用范围已经非常广泛,hadoop本身已经接近成熟。因此hadoop是
2014-07-13 10:50:49 554
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人