自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 Facebook发布HipHop JIT(译文)

Facebook发布HipHop JITFackbook 发布了PHP运行环境HipHop。HipHop提供JIT能力,替代了PHP传统运行和提供更好的页面解释性能,更低的CPU占用率。HipHop有助于提供可观的PHP可测量性和与Java,Python和C++为后端的最优的接口倒不如说用一个结构复杂的HTML的微缓存系统,或者源码级的代码翻译器,Facebook的赵海平描述HipHo...

2010-02-22 14:17:48 363

Jclouds beta版提供使用计算和存储云的便利(译文)

Jclouds beta版包括计算和存储云最近发布,jclouds是一个开源的Java版本的多用云框架。这个发布版本致力于选择。云提供者的选择和管理它们的工具的选择。在jclouds发布版本中,你将找到15种服务选择,包括EC2,Atoms, vCloud, Azure, 和Rimu Hosting。你可以直接选择用这些api,或者用一个多用云抽象,如:BlobStore 或者Comput...

2010-02-22 13:18:49 145

“JAVA之父”James Gosling在TSSJS 2010上的主题报告(译文)

“JAVA之父”James Gosling在TSSJS 2010上的主题报告Java之父James Gosling为第一天开场当大家在争吵关于刚定下来的Oracle对Sun的收购案和它将影响整个行业,我们想不出有什么更好的方法得到一个内部观点比从Java之父James Gosling自我规划中更诱人,它将呈现给我们第一天的名为“Java今天和明天” 政策演讲。这是第一时机你将能听到...

2010-02-22 10:26:53 190

原创 PHP和Perl正彻底成为企业级(译文)

PHP和Perl正彻底成为企业级PHP,Perl和其它脚本语言在企业级方面正取得引人注目的进展,和传统的技术.Net、Java分庭抗礼。你的企业将准备采用吗?Canonical的首席运营官,开源的传道者Matt Asay写到:当动态编程语言像PHP和Python占据了Web工程应用首要地位,它们正打破Java和.net的统治地位的这些信号是非常清晰了。Forreste最近报到了PHP声称是...

2010-02-21 19:28:47 140

原创 Resin实现JavaEE 6的规范(译文)

Resin实现JavaEE 6的规范Resin团队总是专注于提供一个轻量级、快速、可靠和易用的应用服务器。我们自豪于我们的轻量级传统,体积小,独立和个性化,对待一件工艺品的组织。我们也总是考虑标准的价植,开发者的选择,多方协作和拥有竞争力但协调的产品。在了解Java EE6规范前,它是以难以去理解resin里的这些概念。选择真正的从在创造一个轻量级应用服务器或者目标是遵从全部服务从标准...

2010-02-21 18:59:26 168

原创 Nutch1.0开源搜索引擎与Paoding在eclipse中用plugin方式集成(终极篇)

     本文主要描述的是如何将paoding分词用plugin方式集成到 nutch1.0中去,在集成之前首先要在eclipse中把nutch1.0编译通过。然后,写一个中文分词程序,配置好插件配置文件,重新打包编译。如果有linux环境,就可以直接进行编译,如果没有linux环境,还需要下载并配置cygwin等模拟linux环境。      一.环境说明         工具:my...

2009-09-14 13:15:10 101

原创 Nutch1.0的那些事

      很久没有更新博客了,应该快一年了。现在呢,我把去年研究过的Nutch重新拾掇起来,开始了新的开源搜索引擎研究旅程。更多感慨是,Nutch已经在今年3月份已经发布了1.0版本,之前研究的Nutch还是0.9版本,其最大的变化并不是版本的升级,而是Nutch已经正式成为了Apache.org的子项目,并且可爱的Hadoop发的速度甚至超过了Nutch本身。也正在由于Hadoop存在使得Nu...

2009-09-10 12:37:55 126

原创 配置linux服务器之间ssh不用密码访问

在配置nutch的时候,我是采用三台服务器来实现的,现在详细讲述一下如何配置在ssh时不用密码来登录,这个也是配置nutch运行起来的前提。现在linux1是主节点,它需要主动发起SSH连接到linux2和linux3,对于SSH服务来说,linux1就是SSH客户端,而linux2、linux3则是SSH服务端,因此在linux2,linux3上需要确定sshd服务已经启动。简单的说,在...

2008-11-05 13:55:01 144

搜索引擎术语

最近monner兄共享了一篇搜索引擎资料《原理技术与系统》,很有收获啊。下面我将其中的术语部分列出来,大家一起学习一下。附录. 术语B:半结构化数据(semi-structured data),和普通纯文本相比,Web上的网页数据具有一定的结构性,表现在其中的HTML标注上;但和具有严格理论模型的关系数据库的数据相比,这种HTML标注带来的结构性又要弱很多,因此人们称Web上的数据...

2008-10-15 15:30:53 527

原创 搜索引擎机器人研究报告

从该文对googlebot的分析看,googlebot似乎是想先对网站的结构和规模做出分析,然后再规划抓取行为,googlebot的行为确实很有意思。Yahoo的机器人似乎是以月为单位周期的更新,抓取新网页和索引,感觉是想以量取胜,并且对网页似乎没有进一步的分析。感觉MSNbot在整体上还略逊于另两个竞争对手。Introduction引言In the previous edition ...

2008-10-13 15:35:07 334

原创 搜索引擎算法研究

1.引言   万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。   传统的WEB...

2008-10-13 15:11:35 1010

从《李小龙传奇》看开源软件

最近迷上央视版的《李小龙传奇》,虽然还没有来得及看完,但我还是有很多感触,以往的李小龙电影重点都是如何用漂亮的动作击倒对手,如何惩恶扬善,但很少有像这部片子里表述的一样,用大量的篇幅来描述李小龙如何从无名街头霸王成长为一代武术家。他用挨打来学习对手的招术与感受拳脚的力道,然后研究如何破解。当他已经所向披靡时,他感到真正的对手其实是自己,领悟到要想真正提高自己就是与各路高手互相学习,开放自己...

2008-10-07 22:30:50 266

谁说搜索引擎只关注结果-看我viewzi的72变

搜索引擎给大家的感觉,就是用起来简单,以google为首,一个文本,一个按钮,一个简单的列表页面,几乎是用户常用操作的全部。但viewzi可不这么看,除了搜索引擎的复杂架构之外,它对于结果的显现也是梦幻的。下面我列举了查询关键字“nutch”,通过不同的view来呈现结果的查询链接,总有一种呈现方式是你所喜欢的,不信你试试以下的链接,体验一下吧。http://www.viewzi....

2008-10-04 20:15:36 126

《Lucene+Nutch搜索引擎》看过以后。。。

研究搜索引擎技术快一个月了,最大的老师就是google和自己的编程经验了,另外还有一本我从海淀图书城抓来的《Lucene+Nutch搜索引擎》,从一个门外汉到初级入门者,其中经历了很多痛苦和短暂兴奋。就在我认为可以大展拳脚时,发现困难超乎自己的想像。首先,关于搜索引擎技术的进阶资料少之又少,现有的资料大多数只是介绍如何使用,如何配置。再者,由于版本更新或者网络文章撰写者水平问题,很多文章都...

2008-10-03 23:42:49 213

原创 微软有趣的人物关系搜索引擎——人立方

最近,微软亚洲研究院刚刚发布了一个“人肉搜索”的新产品,可以从你输入的某个名字,搜索到该名字双关的人物。下面笔者分享一下人立方的功能  人立方地址:http://renlifang.msra.cn/ 人立方简介  微软人立方关系搜索是由微软亚洲研究院网络搜索与挖掘组研发的对象级别(object-level)互联网搜索引擎。  人立方关系搜索从超过十亿的中文网页中自动的抽取出...

2008-10-03 20:00:51 3241

原创 Nutch开源搜索引擎增量索引recrawl的终极解决办法(续)

十一要放假了,先祝广大同学们节日快乐!在之前的一篇文章中,我给出了Nutch的recrawl的解决办法。说实话,当时已经觉得可以应对recrawl的问题,但是我自己在测试过程中发现,在index的merge时,并没有完全成功。本文就是针对上一篇文章给出解决办法。具体的原因是在merge完成后,会在index目录下面生成一个merge-output目录,这是由于临时目录newinde...

2008-09-28 19:30:30 130

原创 Nutch:一个灵活可扩展的开源web搜索引擎

在网上找到一篇于2004年11月由CommerceNet Labs出具关于Nutch的技术研究报告,报告由DougCutting和CommerceNet Labs的三位研究员一起来完成的。报告的全名是Nutch: A Flexible and Scalable Open-Source Web Search Engine。基本描述了Nutch、Lucene与其它开源搜索软件的比较,Nutch...

2008-09-28 11:46:47 110

原创 Google公司都是些什么牛人?

Google公司都是些什么牛人?       1 Vinton Cerf :号称互联网之父,TCIP/IP协议和互联网架构的合作设计者。他05年10月3日开始正式为Google工作,职位为"首席互联网传布官"。  2 Joshua Bloch :号称java教父,《Effective Java》《JAVA PUZZLE》的作者,JSR175标准的leader,J2SE 1.5的主...

2008-09-27 17:31:09 505

原创 搜索引擎名人堂之Doug Cutting

Doug Cutting是一个开源搜索技术的提倡者和创造者。他和Mike Cafarella发起Lucene和Nutch开源搜索项目,这些项目现在被Apache软件基金会管理。早期开发Luncene,Doug研究搜索技术还在Excite,apple公司和Xerox PARC。Lucene是一个搜索索引索器,Nutch有一个蜘蛛或爬虫,是一个普通开源搜索平台的两个关键组件,首先爬取网络内容,然后将其...

2008-09-27 11:41:52 712

原创 Nutch开源搜索引擎增量索引recrawl的终极解决办法

本文重点是介绍Nutch开源搜索引擎如何在Hadoop分布式计算架构上进行recrawl,也就是在解决nutch增量索引的问题。google过来的章中没有一个详细解释整个过程的,经过一番痛苦的研究,最后找到了最终解决办法。先按照自己部署好的Nutch架构写出recrawl的shell脚本,注意:如果本地索引,就需要调用bash的 rm、cp等命令,如果HDFS上的索引,就需要调用hadoo...

2008-09-26 19:12:41 113

原创 Nutch开源搜索引擎与Paoding中文分词用plugin方式集成

本文是我在集成中文分词paoding时积累的经验,单独成一篇文章来重点介绍,重点需要了解的有下面几个文件,a)插件目录及插件文件 build.xml,plugin.xml b)nutch-0.9\src\plugin\build.xml c)WEB-INF/classes/nutch-site.xml 然后通过按照下面的方式来配置,执行ant package就可以搞定了,这里用ant的方式来...

2008-09-26 15:31:14 89

原创 关于Hadoop的MapReduce纯技术点文章

本文重点讲述Hadoop的整个MapReduce过程,不讲故事,不废话,重在描述每个环节。通过对google过来的文章一番苦读,我整了一些笔记,加入一些自己的看法,不一定全对,大家要区别对待。希望本文对想了解Hadoop的MapReduce的同学有一些帮助。一. 使用Map/Reduce算法的目标1) 能够将计算分布式处理a) 当需要时,数据是总是可用的b) 应用程序不用关心...

2008-09-24 18:10:35 113

原创 MapReduce-免费午餐还没有结束?

Map Reduce - the Free Lunch is not over?微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次重大变革-并行计算。摩...

2008-09-24 09:57:34 97

原创 搜索引擎名人堂之Jeff Dean

最近一直在研究Nutch,所以关注到了搜索引擎界的一些名人,以示榜样。 看了《程序员》2008年9月刊,第一篇文章就是介绍这位神人的,他就是Google的软件架构师Jeff Dean。 我们在工作和生活中都会用到google等搜索引擎,而在那异常简洁的页面和搜索按钮后面都进行着大量的计算。每一个google的用户都在享受着这个软件架构天才对于搜索引擎的贡献。 他曾参与了 g...

2008-09-22 15:09:55 323

原创 Lucene于搜索引擎技术(Analysis包详解)

Analysis包分析算法和数据结构分析:由于Analysis包比较简单,不详述了!算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话)数据结构...

2008-09-22 14:55:47 153

原创 Lucene与搜索引擎技术(Document包详解)

Document包分析理解DocumentLucene没有定义数据源,而是定义了一个通用的文档结构,这个文档结构就是LuceneDocument包下的Document类.一个Document对应于你在...

2008-09-22 14:54:44 272

原创 Lucene的查询语法

原文来自:http://liyu2000.nease.net/article/Lucene/queryparsersyntax.htm绪论Lucene提供了方便您创建自建查询的API,也通过QueryParser提供了强大的查询语言。本文讲述Lucene的查询语句解析器支持的语法,Lucene的查询语句解析器是使用JavaCC工具生成的词法解析器...

2008-09-22 14:53:12 60

原创 Lucene与搜索引擎技术(index包详解)

Index包分析原创:windshow TjuAILabLucene索引中有几个最基础的概念,索引(index),文档(document),域(field),和项(或者译为语词term)其中Index为Document的序列 Document为Field的序列 Field为Term的序列 Term就是一个子串.存在于不...

2008-09-22 13:49:49 567

原创 Lucene倒排索引原理

Lucene倒排索引原理xzall 原创 (参与分:2747,专家分:140) 发表:2004-08-04 10:12 版本:1.0 阅读:2652次 Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:0)设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,I live ...

2008-09-22 13:48:03 87

原创 Lucene开源搜索引擎的索引目录结构

Lucene索引结构可以分为索引、索引段、索引文档、索引域和索引项几个不同层次。lucene每个索引的结构由一个或者多个段组成,每个段包含一个或多个文档,每个文档管理了一个或者多个域,每个域由一个或多个索引项组成,每个索引项是一个索引数据index->segment->document->field->term在使用过程中,有两种结构可供选择,一种是多文件索引结构,一种是复合索引结...

2008-09-22 10:22:23 111

原创 Nutch开源搜索引擎crawl的两种方式比较

在我之前的Nutch爬虫试验中,是调用crawl命令直接抓取,在深入学习crawl时,发现具体的运营过程当中,需要更精细的控制整个crawl抓取过程,下面就针对nutch两种方式做一个比较。方式一:nutch局域网抓取$ bin/nutch crawl urls -dir crawl10 -depth 10 -threads 10 >& nohup.out具体的抓取过程分析详见《Nut...

2008-09-22 10:19:31 210

原创 Nutch开源搜索引擎的crawl日志分析及工作目录说明

看了nutch关于crawl的源码后,我将crawl的日志分析了一下,主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。可以通过nutch来深入学习Hadoop编程,都是比较横的代码。这一块待以后研究完毕后,blog出来。crawl通过nutch-default.xml参数来控制运行过程,另外需要修改crawl-urlfi...

2008-09-19 17:42:17 75

搜索引擎最热的关键字是什么?

在网上搜索一些资料时,发现搜索引擎最热的关键字排名很意思,下面是文章的摘要,共享一下 雅虎年度十大关键词出炉不久,另一大搜索引擎公司Google的关键词搜索Top10也于 2007-12-05出炉,热门数码产品iphone位居榜首。另外值得注意的是,其中五个关键词均为社区网站。 Google的Top10依次为:1. iphone;2. webkinz(网娃)儿童交互网络社区;3. ...

2008-09-18 14:05:30 252

从潜水员到blogger的过程

做了这么多年的技术,一直潜水至今,自己都狂汗,现在吧,突然想站出来喊两嗓子了。从最初的程序员到现在的管理岗位,对于技术一直都默默追求,甚至到了一两个星期不整点新东西就有点空虚的地步,但我一直没不敢在众多牛人面前表达自己对技术的理解。这样是不是有点“闷骚”啊, :wink: 技术人员的成长是一个很艰辛的过程,首先得吃苦,我一直对我的下属说,年轻人多吃点亏就是占便宜,这句话虽然看起来有一些偏颇...

2008-09-12 11:34:19 118

原创 研究Nutch开源搜索引擎心得记录

---------------20080828------------下载源码,初步研究--------------20080829-------------http://blog.csdn.net/lianqiang198505/archive/2007/04/18/1569680.aspx 前两天试用了nutch目前的最新版本。这个版本是完全建立在hadoop基础上的,也就是一...

2008-09-11 16:07:05 148

原创 深入了解Hadoop

-----------------------20080827-------------------深入了解hadoophttp://www.blogjava.net/killme2008/archive/2008/06/05/206043.html一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误...

2008-09-11 16:05:21 162

原创 研究hadoop分布式计算平台及三台服务器的实现

--------------------20080819------------参考文章http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.htmlhttp://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.htmlhttp...

2008-09-11 16:03:31 155

搜索引擎技术点的整理

技术点:需要整理研究的搜索引擎技术点(目录,无实际价值)(一)中文分词部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证1,断句与分块2,字符类型设计与识别(中文,英文,数字,半角,全角).3,从已断句子中分析提取字符类型相同的连续字串.4,字典类设计5,分词算法设计 5.1,数字英文分词算法设计 5.2,中文分词算法设...

2008-09-11 15:56:15 136

原创 开始改造lucene的demo,为我所用

-------------------20080731------------------修改前端界面,修改成类似baidu的风格修改index.jsp和results.jsp研究IndexHTML.java1)在meta中有中文,就解析不过去了 2)在注释中有中文,也解析不去 考虑把...

2008-09-11 15:54:49 102

原创 完成了paoding与lucene的集成

---------------------------------------------------20080729---------------------------------------------------理解疱丁分词的基本原理,编译原码,用ANT编译E:\workspace\searchengine\paoding-analysis-2.0.4-beta 完成...

2008-09-11 15:53:08 79

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除