- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 Heritrix
Heritrix 使用笔记Heritrix 在进行爬前的准备工作是配置order.xml和seeds.txt文件;其中order.xml是用来配置在整个爬取过程中用那些合适的类进行组合来完成我的爬去任务。而seeds.txt文件是用来存放我要爬取得网站的入口地址。Heritrix 用来控制整个爬取过程的类是CrawlController ,在CrawlController 定义了一下几个
2008-01-01 18:43:00 444
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人