自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 为nutch 添加中文分词插件

1.nutch中文分词Nutch对中文查询时默认采用的分词器为NutchAnalyzer,对中文默认采用单字切分.这种效果不是很理想,我们可以自定义切词器,以实现对中文支持.可以采用的两种方式添加对中文的支持.1.       直接修改nutch的系统代码,对默认的分词器代码进行修改使其使用自定义中文分词程序.2.       采用插件的方式,不修改系统代码的基础上,编写中文分

2007-02-09 13:34:00 6001 4

原创 nutch结构

 1.nutch设计者画的结构图,看到这个图对整体了解非常有帮助,也为多留一个备份.    

2007-02-02 15:16:00 4207

原创 Hadoop 部署 2

  1.前言:         以前在window下部署hadoop项目,部署过程中出现不少问题,虽然基本上进行了排除解决,但总体上在windows上部署hadoop分布项目不象在linux下那么顺利.最后还是在linux下进行了部署. 2.部署软硬件设备:  软件:      1.java执行环境jdk1.5+,jre1.5+      2.hadoop软件,

2007-01-25 14:09:00 1354

转载 Hadoop 配置

 HowToConfigureHow To Configure HadoopPrimary XML FilesHadoop is configured with a set of files. The files are loaded in the order listed in the table below, with the lower files in the tabl

2007-01-13 17:15:00 1775

原创 Hadoop在windows下运行

1.windows下的hadoop的分布部署主要有两种方式1.1.采用cygwin模拟linux下命令的方式,部署安装hadoop系统.  1.2.修改系统的代码文件DF.java使其可以在windows下运行.   主要原因在于,在hadoop的代码中对数据节点的磁盘使用情况的获取采用了  linux下的df -k 命令进行获取而在windows没有此命令支持,因此在数据节点启动DataNode

2007-01-13 16:41:00 4560

原创 hadoop 学习笔记1 - DFS

 1.hadoop作为分布式计算平台,具体可参见hadoop网站.http://lucene.apache.org/hadoop在学习windows下部署过程中遇到不少问题,在这里把学习的一点心得写出来,希望在学习的朋友能少一点走的弯路.2. hadoop 组成hadoop 由两部分组成 分布文件系统 hdfs,分布计算框架map/reduce ,在这里先主要介绍其hdfs部分.3.

2007-01-12 16:48:00 1583

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除