自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(0)
  • 资源 (14)
  • 收藏
  • 关注

空空如也

Nutch安装及入门学习教程

目 录 1. nutch简介.................................................................................................................................1 1.1什么是nutch.......................................................................................................................1 1.2研究nutch的原因...............................................................................................................1 1.3 nutch的目标.......................................................................................................................1 1.4 nutch VS lucene.................................................................................................................2 2. nutch的安装与配置.................................................................................................................3 2.1 JDK的安装与配置.............................................................................................................3 2.2 nutch的安装与配置...........................................................................................................5 2.3 tomcat的安装与配置.........................................................................................................5 3. nutch初体验..............................................................................................................................7 3.1 爬行企业内部网................................................................................................................7 3.1.1 配置nutch................................................................................................................7 3.1.2 配置tomcat..............................................................................................................8 3.1.3 执行抓取命令.........................................................................................................9 3.1.4 测试结果...............................................................................................................11 3.1.5 Intranet Recrawl.....................................................................................................13 3.2 爬行全网..........................................................................................................................18 3.2.1 nutch数据集的基本组成:......................................................................................18 3.2.2 爬行"官方"网址...............................................................................................18 3.2.3 爬行中文网址.......................................................................................................22 4. nutch基本原理分析...............................................................................................................23 4.1 nutch的基本组成.............................................................................................................23 4.2 nutch工作流程.................................................................................................................23 5. nutch工作流程分析...............................................................................................................25 5.1 爬虫.................................................................................................................................25 5.1.1 工作策略...............................................................................................................25 5.1.2 工作流程分析.......................................................................................................25 5.1.3 其它.......................................................................................................................27 5.2 索引.................................................................................................................................27 5.2.1 索引主要过程.......................................................................................................27 5.2.2 工作流程分析.......................................................................................................28 5.2.3 倒排索引(inverted index).....................................................................................29 5.2.4其它........................................................................................................................29 5.3 搜索.................................................................................................................................29 5.4 分析.................................................................................................................................30 5.5 nutch的其他一些特性.....................................................................................................31 6. nutch分析方法和工具...........................................................................................................33 6.1 Crawldb...........................................................................................................................33 6.2 Linkdb.............................................................................................................................35 6.3 Segments.........................................................................................................................35 6.4 Index................................................................................................................................39 7. nutch分布式文件系统...........................................................................................................41 2007-8-26 北京邮电大学-李阳 Nutch入门学习 7.1 概述.................................................................................................................................41 7.2 MapReduce...................................................................................................................41 7.3 文件系统语法..................................................................................................................42 7.4 文件系统设计..................................................................................................................42 7.5 系统的可用性..................................................................................................................43 7.6 Nutch文件系统工作架构.............................................................................................43 8. nutch应用...............................................................................................................................45 8.1 修改源码..........................................................................................................................45 8.2 插件机制---plugin...........................................................................................................45 8.2.1 什么是plugin.........................................................................................................45 8.2.2 使用plugin的好处.................................................................................................45 8.2.3 plugin工作原理......................................................................................................46 8.2.4 编写plugin............................................................................................................47 8.3 API接口............................................................................................................................53 8.3.1使用Nutch API.......................................................................................................53 8.3.2使用OpenSearch API.............................................................................................55 8.4 nutch的应用前景.............................................................................................................57 附录一: nutch的相关网站.........................................................................................................58 附录二: 参考文献.......................................................................................................................58

2010-11-20

oracle 命令集 oracle命令中文介绍

oracle的命令大集合,还有详尽的用法介绍,中文版的。

2010-04-24

Oracle概念中英文对照版

Oracle概念中英文对照版,左边英语原文,右边中文翻译参考,非常的方便,非常有用。

2010-04-16

oracle官方教程

sun公司的oracle官方教程,对于需要有一定的英语水平才能阅读,不但能学习oracle,还能提高英语呢。

2010-04-15

JDK 6 帮助文档 中文参考 api

JDK 6 帮助文档,内容是中文的,还有检索功能,非常方便使用。

2010-04-13

id3算法源代码 机器学习

id3算法 机器学习 人工智能id3算法 机器学习 人工智能

2010-04-06

神经网络算法源程序 机器学习

ADALINE ART1 BAM BOLTZMAN BPN CPN HOPFIELD SOM

2010-04-06

Java程序设计基础教程

java的初级教程,比较适合于初学者学习参考。

2010-04-05

oracle函数大全

概括了oracle大多数的函数的用法,结合实例,更加直观。

2010-04-05

oracle数据库管理员指南

oracle数据库管理员指南 oracle 9i

2010-04-05

解决瑞星不能升级问题

解决瑞星不能升级问题解决瑞星不能升级问题解决瑞星不能升级问题解决瑞星不能升级问题

2010-03-16

修复只能上qq不能打开网页的问题

修复只能上qq不能打开网页的问题修复只能上qq不能打开网页的问题修复只能上qq不能打开网页的问题

2010-03-16

天网搜索引擎(tse)源代码

北京大学开发的天网搜索引擎的源代码。Linux环境下用C++写的

2010-01-07

网络蜘蛛(spider)源代码

这是一个网络蜘蛛程序的源代码,代码使用用c++语言。

2010-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除