kauu-CSDN博客

转载高端？低端？谢谢！

http://babatu.blogspot.com/2009/04/blog-post_23.html 首先恭喜你！为什么呢?因为如果你看了这个标题后，并进来读这篇文章时，表示你是一个高端互联网用户了。这篇文章我们就来看一下互联网中高端与低端。何为高端，何为低端？可以用地图来解释一下，如果一个互联网产品的使用用户开始从我天朝东部发达地区开始，那就可以把它称为高端；反之，如果开始时的用户从

2009-04-24 10:32:00 4055

原创一个让我用得很爽的个性导航h2w1.com

一直对hao123所发现的市场所感慨。原来低端的市场这么大，这么强。但毕竟自己不在这一市场里，但是网址导航却也是实实在在的需求。之前用过igoogle，刚开始感觉还可以，但实在是太强大了，大到它的目标是想去让用户把它当作自己的“桌面”。一点一点把内容加进来后，发现我不想再去igoogle了。因为每天上网的起点实在是全面了，以致于我基本不上其它网站，而不敢再去用它了。现在我用h2

2009-04-04 16:00:00 7316

转载 UNIX 高手的 10 个习惯

Michael Stutz ([email protected]), 作者, 顾问 2007 年 2 月 09 日采用 10 个能够提高您的 UNIX® 命令行效率的好习惯——并在此过程中摆脱不良的使用模式。本文循序渐进地指导您学习

2007-11-23 13:22:00 4137 2

原创 Nutch距离一个商业应用的搜索引擎还有多远

参考：http://lotusroots.bokee.com/6106980.html 了解nutch的人基本上对这个开源的系统都是比较欣赏的，起码在国内是这样的，也很有多搜索网站是基于这个系统修改过来的，不过要做得好，做得真正是一个商业化的搜索，这个修改就不是一朝一夕的事情，也不是修修剪剪那么简单了。作为一个通用的全网级别的搜索引擎架构，nutch(lucene)确实为广大

2007-11-05 14:58:00 4576 5

原创 nutch的cache策略及cache策略研究

一个成熟的商业搜索引擎的cache应该是比较成功的，因为在长期的实践中证明 cache的好坏很大地影响着搜索引擎的效率。虽然I/O、算法等等很大地影响着搜索效率，但是在相差不大或着说在同一数量级上时，cache却可以让引擎的效率成倍或大大地提高。在nutch中当然也是有cache的，只不过比较初级而已。在nutch中负责cache的是

2007-11-02 13:43:00 4636 1

原创 Nutch的Analysis包详解

对于中国用户，最早遇到的棘手问题可能就是中文分词了。由于nutch对中文的支持默认是单字分词，所以很多人在一拿到nutch后要解决的第二件事情（第一件事情当然是让nutch跑起来了）往往是要加入一个可行的中文分词模块。所以对这个包研究的人也是最多的，在网上关于nutch的中文分词的文章也是人气很高的。那么就让我们一起来走近它看看它到底是怎么一回事，也让我们来做个中文分词器让中文在nut

2007-10-23 15:24:00 3935 4

原创 Nutch Crawler工作流程

Nutch Crawler工作流程及文件格式详细分析Crawler和Searcher两部分被尽是分开，其主要目的是为了使两个部分可以布地配置在硬件平台上，例如Crawler和Searcher分别被放置在两个主机上，这样可以极大的提高灵活性和性能。一、总体介绍： 1、先注入种子urls到crawldb 2、循环： generate 从crawldb中生成一个ur

2007-10-14 09:58:00 14920 6

翻译 Hadoop -- Map-Reduce具体实现详解

HadoopMapReduce --Map-Reduce具体实现详解 Keyword: FileSplit:文件的子集--文件分割体简介：这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模式不熟悉，请先参阅MapReduce--http://labs.google.com/papers/mapred

2007-10-08 15:27:00 18888 7

原创为log4j增加自定义级别

并非在项目应用中原先的几个级别不够用了，通常的info,warn,debug ,error,fatal已经可以满足一般的应用，而且log4j也是不推荐用户自定义级别的。由于在我们的搜索引擎里要为每天的巨大搜索量的日记进行分门别类的记录，面原先的几个级别在程序都已经按一般的需求使用了，所以就必要自己再定义出新的级别以满足我们的需求。为log4j增加自定义级别其实是一件比较简单的事件。

2007-09-26 10:46:00 6831

原创个人常用的VIM命令列表

移动光标上:k nk:向上移动n行 9999k或gg可以移到第一行 G移到最后一行下:j nj:向下移动n行左:h nh:向左移动n列右:l nl:向右移动n列 w：光标以单词向前移动 nw：光标向前移动n个单词光标到单词的第一个字母上b：与w相反e: 光标以单词向前移动 ne：光标向前移动n个单词光标到单词的最后一个字母上ge:与e相反$:移动光标到行尾 n$:移动到第n行的行尾

2007-09-26 09:47:00 2431 1

原创 windows下的hadoop的分布部署

1.windows下的hadoop的分布部署主要有两种方式1.1.采用cygwin模拟linux下命令的方式,部署安装hadoop系统. 1.2.修改系统的代码文件DF.java使其可以在windows下运行. 主要原因在于,在hadoop的代码中对数据节点的磁盘使用情况的获取采用了 linux下的df -k 命令进行获取而在windows没有此命令支持,因此在数据节点启动DataNode

2007-09-13 10:13:00 3589

一、linux sed 批量替换多个文件中的字符串sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir`例如：替换/home下所有文件中的www.bcak.com.cn为bcak.com.cnsed -i "s/www.bcak.com.cn/bcak.com.cn/g" `grep www.bcak.com.cn -rl /ho

2007-08-24 13:02:00 71948 4

转载 nutch插件加载机制

当某个插件需要被加载时， Nutch 会加载所有插件的相关接口到缓存，此后每个插件需要实例的时候，根据相关接口和相关接口实现实例在缓存内的记录，使用反射实现一个实例并返回，下面以 QueryFilter 的所有插件被加载例子进行说明。具体代码参看org.apache.nutch.seache

2007-08-24 09:58:00 3385

原创 Spirit+lucene+nutch

垂直搜索是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取，也就是将网页的非结构化数据抽取成特定的结构化信息数据，好比网页搜索是以网页为最小单位，基于视觉的网页块分析是以网页块为最小单位，而垂直搜索是以结构化

2007-08-23 12:30:00 3203

转载自动生成的makefile写法

makefile写法2004-04-23 15:18 pm来自：Linux文档现载：Www.8s8s.coM地址：无名Abstract: 在 Unix 上写程式的人大概都碰过 Makefile，尤其是用 C 来开发程式的人。用 make来开发和编译程式的确很方便，可是要写出一个 Makefile就不简单了。偏偏介绍 Makefile 的文件不多，GNU Make 那份印出来要几百页的文件，光看完

2007-08-17 10:44:00 2555

原创 linux网络配置

原文地址 http://www.ubuntugeek.com/ubuntu-networking-configuration-using-command-line.html 以eth0为例1. 以DHCP方式配置网卡编辑文件/etc/network/interfaces:sudo vi /etc/network/interfaces并用下面的行来替换有关eth0的行:# T

2007-08-12 12:38:00 2268

原创在BtoB学习的一个来月

从口碑到BtoB学习了一个来月了，在这个月里，感觉时间过得好快。来学习，也是来做项目的，因为口碑用的搜索是BtoB的技术，我们争取一定要把它自己掌握以后学以至用。带着两个需求过来，一开始就以需求为中心行动起来。先把字典分词搞定，再把按推荐菜次数排序搞定，最后宪哥又多了一个排店铺到临时所先择的中心点距离来排序。三个需求下来。对isearch的认识也加深了不少，也很感觉BtoB这边的孙海涛

2007-08-07 11:53:00 2282

原创 nutch0.9, 性能大为提升。

　　很多用lucene和nutch的用户都有一个很大的烦恼，就是它的性能和稳定性在工程上确实不是很让人感觉满意。　　不过nutch0.9出来可以让大家多了一点信心，也为自己的项目多了一份保险。据FooFactory的测试，nutch9比nutch8在速度上提升了两倍，存储空间也降了一半。 The following graph shows how the size of equal cra

2007-07-27 23:23:00 3550

原创最近的一些日子

这个月刚毕业，真正进入社会了，回到浙江，加入了阿里集团。现在在阿里下的口碑网任职，专心进行搜索引擎的工作，上周开始到阿里软件来培训阿里集团内部的搜索引擎--它现在支撑着BtoB中文、英文、淘宝网、口碑网等的搜索。在阿里工作感觉挺不错!!!

2007-07-25 12:57:00 2330

转载 Heritrix-- 开源crawler

是IA的开放源代码，可扩展的，基于整个Web的，归档网络爬虫工程Heritrix工程始于2003年初，IA的目的是开发一个特殊的爬虫，对网上的资源进行归档，建立网络数字图书馆，在过去的6年里，IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种：宽带爬虫：能够以更高的带宽去站点爬。主题爬虫：集中于被选择的问题。持续爬虫：不仅仅爬更当前的网页还负

2007-01-18 13:29:00 4146 1

转载开源crawler

Heritrix 点击次数：3822Heritrix是一个开源，可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 WebSPHINX 点击次数：2205WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHIN

2007-01-16 22:05:00 1910

原创开发垂直门户的分布式搜索引擎系统

最近遇到了头疼的事情，就是开发垂直门户的分布式搜索引擎系统时，发现有四种不同应用的分布式搜索引擎：1.分布式元搜索: 拥有多个单

2007-01-15 13:06:00 2613

原创 nutch怎样过滤spam信息。

主　　题： nutch怎样过滤spam信息。

2007-01-15 13:06:00 5192

原创 Linux必学的60个命令(1)-安装与登陆

Linux必学的60个命令Linux提供了大量的命令，利用它可以有效地完成大量的工作，如磁盘操作、文件存取、目录操作、进程管理、文件权限设定等。所以，在Linux系统上工作离不开使用系统提供的命令。要想真正理解Linux系统，就必须从Linux命令学起，通过基础的命令学习可以进一步理解Linux系统。不同Linux发行版的命令数量不一样，但Linux发行版本最少的命令也有200多个。

2007-01-13 11:25:00 1053

转载 Linux必学的60个命令(2)-文件处理

Linux必学的60个命令 -文件操作 Linux 系统信息存放在文件里，文件与普通的公务文件类似。每个文件都有自己的名字、内容、存放地址及其它一些管理信息，如文件的用户、文件的大小等。文件可以是一封信、一个通讯录，或者是程序的源语句、程序的数据，甚至可以包括可执行的程序和其它非正文内容。 Linux文件系统具有良好的结构，系统提供了很多文件处理程序。这里主要介绍常用的文件处理命令。fi

2007-01-13 11:24:00 1088

转载 hadoop 学习

Hadoop 的文件系统，最重要是 FileSystem 类，以及它的两个子类 LocalFileSystem 和 DistributedFileSystem。这里先分析 FileSystem。抽象类 FileSystem，提高了一系列对文件/目录操作的接口，还有一些辅助方法。分别说明一下:1. open，create，delete，rename等，非abstract，部分返回 FSData

2006-12-10 14:07:00 5947 2

转载 hadoop 初记－试用

Hadoop Learning My DemoStatistic.java1. 初始化配置文件，临时文件存放目录，还有具体的Job。 Configuration defaults = new Configuration(); File tempDir = new File("tmp/stat-temp-"+Integer.toString(

2006-12-10 13:58:00 3283

转载 Hadoop笔记--不需要分布式编程经验地分布式编程

作者：江南白衣 Hadoop 是 Google labs 的MapReduce的一个实现，Nutch项目的全部数据处理都构建在其之上。MapReduce是一种简化的分布式编程模式，让程序可以自动在普通机器组成的集群中以并行方式分布执行。就如同java程序员可以不考虑内存泄露一样，MapReduce程序员也不许要关心海量数据如何被分配到多台机器上，不需要考虑机器失效的处理，不需

2006-12-10 13:44:00 2170

原创新闻聚类系统－－－news.baidu.com

要做一个新闻聚类系统，大概就和http://news.baidu.com类似的。可是没有什么想法呀！　　怎么办呢？　　这样的新闻，　　要有抓取，存到一种“格式”里，或XML，或HDFS或DB里，　　二是要用分类器，基于SVM也好，KNN也好，　　三是要有聚类－carrot2,或其它。　　这样，三个重要组件都已经想到了，接下来就要设计了－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

2006-12-01 22:31:00 3522 2

原创好久没有在网上写心情了。

真的好久没有在网上写自己的心情了。不过最近来说一切都是很顺利的。我决定现在不考研，先去找工作了。为什么呢？一是因为我现在考研的话，感觉自己在累了，大学几年来学了两个学科。确实有点累了。而且好想和我女朋友在一起，我们在两地已经三年了，我们两个都会觉累的，虽然我们的的感情很好。如果继续再读的话，在吉林的话，真是很受不了。二是觉得我想先工作，积累一些经验，然后再读研究生。#---

2006-11-22 11:29:00 1144

转载基于Java的搜索引擎Nutch中文搜索技术研究

基于Java的搜索引擎Nutch中文搜索技术研究宿红毅罗宏臧海峰（北京理工大学计算机科学与工程系，北京 100081）摘要：Nutch是一个优秀的基于Java的开放源码搜索引擎，为了使它能够支持中文搜索，本文在分析了Nutch结构的基础上，采用词表分词技术和前向匹配分词算法对中文信息进行分词，以JavaCC脚本实现上下文相关文法中文分析模块，成功实现了Nutch中文搜索功

2006-11-20 20:55:00 3513 1

原创给nutch .8加中文分词

原来nutch 的分词是用javacc的，它是一个很高效的东东哦。对于中日韩的文字是用单字分词，所以对中文要分词，思路当然是把中文拿出来单独对待了。所以要对analysis.jj进行修改。 // chinese, japanese and korean characters| > | )+>//chinese word // irregular w

2006-11-19 09:58:00 1851 2

转载 nutch 高亮和增加索引长度

高亮显示比较简单，网上也有很多介绍代码。修改如下：将 org.apache.nutch.searcher.Summary 第 54行代码修改为： public String toString() { return "" + super.toString() + ""; }增加索引长度花了我比较长的时间，不过后来发现原来有两个参数是专门调整索引长度的，刚看代码的时候没有注意到

2006-11-18 20:35:00 1787

原创阅读nutch.Analysis.jj

2006-11-17 22:56:00 2475

原创 nutch0.7.2+ictclas 成功移植到linux下。

本来nutch 就是在linux 下跑的，可是为了方便，也是因为ictclas 网上只有windows 的.dll 。所以一开始大家都是在windows 下完成了nutch +ictclas，这样子就初步地实现了一个比较强大的而且对中文支持比较好的搜索引擎了。可是做事情总不能在windows 下做吧，到底还是得移到linux下去呀，不然不是个办法呀。所以就自己来哦。下了ICTCLAS

2006-11-09 14:24:00 1812 4

原创昨天被新浪害死了。

亲爱的GF开了博客我明明有好几次评论的了，可是我用的firefox ，新浪对firefox支持很不好，提示全是乱码！！我也就不知道到底有没有发表成功，昨天一看才知道是没有成功，只得换ie了。女朋友发大火，说我不关心的心情，评论也没有，我好紧张呀！！！新浪你做就做得好一点嘛。真是受不了。

2006-11-09 11:13:00 1020

原创 java JNI 初记

要把nutch 和ICTCLAS移到linux下，就要学习一下jni了。总的来说，JAVA已经为我们做好了很多工作，我们只能用就可以了。先来一个helloWord 吧LINUX下1.mkdir -p /JNI/lib 2.vi /JNI#设置一下临时用的库路径3.export LD_LIBRARY_PATH=`pwd`/libvi HelloWord.javathen ja

2006-11-09 11:01:00 1033

转载 Nutch 0.7.2 学习笔记

Nutch 学习笔记我的jdk 是1.5.x ，Tomcat是5.0.x1 下载0.7.2 版本的包：里面已经包含了war文件，所以不需要Ant编译了2 安装Cygwin，这个没什么好说的。3 把Nutch借压缩到D:/nutch4 在D:/nutch下面建立一个文件 urls （没有后缀）http://www.ybu.edu.cn/5 在D:/nutch

2006-11-01 20:54:00 1474

原创 nutch 8.x安装与使用

作者：江南白衣 Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。 Nutch 0.8 完全使用Hadoop重写了骨干代码，另外很多地方作了合理化修正，非常值得升级。1.Nutch 0.8 的安装与运行nutch

2006-10-30 17:28:00 1603 6

原创昨天第一次面试，结果还不错。

昨天第一次去面试，在浙江杭州。公司是上海网力网络科技有限公司。我是在回来的火车上接到公司前台的电话的。我去之前一点都不知道这家公司的情况。而且我在火车上听到的名字也不对，我听成了“网帝”，结果到杭州后虽然在我弟弟那里查了一下，但是当然查不到了。所以我怀着一种一点都不知道对方情况的情态去的。在这之前还有一点小插曲呢。我是在26号下午接到电话27号早9点要去面试的。晚上要去买面试

2006-10-27 10:24:00 1206

空空如也

空空如也