自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (2)
  • 收藏
  • 关注

转载 nutch索引中添加自己的Field

点击打开链接 向nutch中添加自己的field也是比较简单的,和直接调用lucene向索引中添加field基本相同,首先设定添加的field是否要被存储分词索引,然后将field添加到NutchDocument中,其他的工作就nutch会自动完成: (1)首先要在Indexer的index函数配置执行索引工作前设定添加Field的属性,因为添加的pagetime是用来进行对结果排序使

2013-11-21 15:47:42 658

原创 nutch +中文分词

总结已知方法的缺点 job fild   原因 查看hoodap.log 1   内存设置不足-Xms800m -Xmx800m                        2   NutchDocumentAnalyzer.java文件添加:importorg.wltea.analyzer.lucene.IKAnalyzer;将Importorg.apache.luce

2013-11-20 20:55:51 759

转载 hello world!

hello world!

2013-11-19 09:48:40 547

nutch入门教程

1.1 什么是 nutch Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜 引擎所需的全部工具。 1.2 研究 nutch的原因 可能有的朋友会有疑问,我们有 google,有百度,为何还需要建立自己的搜索 擎呢?这里我列出 3 点原因: (1) 透明度:nutch 是开放源代码的,因此任何人都可以查看他的排序算法 是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为 什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允 许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的。因 此 nutch 对学术搜索和政府类站点的搜索来说,是个好选择,因为一 个公平的排序结果是非常重要的。

2013-09-23

全文搜索引擎构建案例文档

完整的搜索引擎开发案例和帮助文档 基于lucene的开发引擎 具有索引本地文档和搜索功能

2013-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除