自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

转载 JAVA爬虫WebCollector 2.x入门教程——基本概念

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。目前WebCollector在Github上维护:https://github.com/CrawlScript/WebCollector中文教程地址:http://datahref.com/book/

2015-12-25 10:55:41 1343

原创 Nutch开发者 网站发布

Nutch开发者网站提供各种Nutch教程、资讯,以及相关爬虫的资料、信息。网站地址:http://nutcher.org/

2015-03-05 15:33:25 1879 1

原创 Nutch教程——导入Nutch工程,执行完整爬取 by 逼格DATA

<property name="repo.maven.org" 33 value="http://repo1.maven.org/maven2/" 34 override="false"/>在使用本教程之前,需要满足条件:1)有一台Linux或Linux虚拟机2)安装JDK(推荐1.7)3)安装Apache Ant下载Nutch源码:推荐使用

2015-02-09 11:30:42 20608 3

原创 Nutch教程——准备篇 by 逼格DATA

实在是看不下去Nutch官方的坑爹教程了,总结一套看完能懂的Nutch教程,持续更新中。开发环境和基础:学习Nutch,必须满足以下几个条件,缺一不可:1)Linux环境,实在是没办法就在Windows上装Linux虚拟机。2)熟悉JAVA。3)有hadoop基础,能够编写hadoop下map reduce程序。4)能够看懂Linux Shell。下面来

2015-02-09 00:45:56 5895

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除