自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ChinaUnix博客搬家测试账号

26800897--张俊林

  • 博客(52)
  • 收藏
  • 关注

原创 搜索引擎重复网页发现技术分析

一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms for Duplicate Docum...

2018-04-17 14:30:52 278

原创 未来的电视是什么样子?

未来的电视是什么样子?假设现在是2030年,那么此时的电视是什么样子呢?电视的外观:1.两级分化未来的电视外观将走向两个极端:一个极端是越来越大。这个是很容易看到的趋势,现有电视也是遵循这这个思路在发展。一个极端是越来越小。未来电视的另外一种外表可能是一副眼镜,你带上它就可以收看了;就像周星星在国产007里面示范的一样:周星星同学从容不迫的脱下锃亮的皮鞋对着画面说:你以为它...

2018-04-17 14:30:36 387

原创 英雄的悲哀

 英雄的悲哀张俊林 timestamp:2006/10/2不是英雄不读三国若是英雄怎么能不懂寂寞独自走下长板坡,月光太温柔曹操不罗嗦,一心要那荆州用阴谋 阳谋 明说 暗夺,淡薄东汉末年分三国,烽火连天不休儿女情长被乱世左右,谁来煮酒尔虞我诈是三国,说不清对与错纷纷扰扰千百年以后,一切又从头-林俊杰 《曹操》曹操无疑...

2018-04-17 14:29:48 285

原创 语言和音乐

我发现语言天赋和音乐天赋有着很密切的正相关关系。往往音乐天赋好的语言天赋也很好。语言天赋好的音乐天赋也不会差。所以判断一个人能否学好英文的标准是看这个人唱歌如何,如果一个唱歌很好很有乐感的人是比较容易学的地道的英文发音的。而没有音乐天赋的人在英文口语方面不会很好。因为学外语句子发音和学一手歌曲非常像。你会反驳说对于native speaker来说,即使没有天赋英文也会说的很好,这不...

2018-04-17 14:29:47 260

原创 搜索引擎索引之索引基础

本文节选自《这就是搜索引擎:核心技术详解》第三章本节通过引入简单实例,介绍与搜索引擎索引有关的一些基础概念,了解这些基础概念对于后续深入了解索引的工作机制非常重要。3.1.1单词—文档矩阵单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。图3-1 ...

2018-04-17 14:29:36 506 1

原创 索引擎设计实用教程(3)-以百度为例

上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误.那么以前的分析有什么漏洞呢?我们推导百度分词有反向最大匹配的依据是百度将"北京华烟云"分词为<北,京华烟云>,从这里看好像采用了反向最大匹配,因为正向最大匹配的结果应该是&lt...

2018-04-17 14:29:16 187

原创 Google怎么做(1.相关提示)

在我以前发的帖子里面讲过百度的相关提示功能是如何实现的,下面说说GOOGLE(http://googlechinablog.com/2006/04/blog-post_10.html)的相关提示如何实现的,你使用两个搜索引擎并观察一下两个系统的相关提示就会发现,GOOGLE的技术含量比百度高出很多.比如输入查询”刘翔”,GOOGLE的相关提示”足球”/”罗雪绢”/”姚明”/”田径”...

2018-04-17 14:28:36 213

原创 从选秀策略看市场测试

 从选秀策略看市场测试CopyMiddle:张俊林Timestamp:2007年8月最近两年电视选秀节目成为了游荡在中国上空的幽灵,而把这个幽灵放出来的正是家住湖南的芒果台。其实这类节目的火爆也是顺理成章的,打个比方来说:选秀节目就是做给电视观众的一盘菜,一大批做梦都流着哈喇子想一夜成名的小朋友就相当于西红柿啊番茄啊这些不同种类的水灵灵还种在地里的蔬菜; 一小批...

2018-04-17 14:27:46 175

原创 orion算法被解密了

刚刚给阿龙打过电话,阿龙把arrion算法的大致思想向我汇报了一下,至于有些技术细节没说,有时间我在琢磨琢磨。前面我写的分析文章,现在看来多少有点问题,至于是什么问题就不细说了,看来阿龙的这个思路确实是跟主流搜索引擎研究思路有很大的区别,我听了以后有点茅塞顿开的感觉,至于是怎么实现的在合适的时候再说,暂时进入保密期,我看看能否有些改进的思路; ...

2018-04-17 14:26:41 284

原创 google怎么做(3.搜索结果重排序)

中科院软件所 张俊林TIMESTAMP:2006年5月19日GOOGLE在用户初次检索结果基础上又利用链接关系进行了重排序,期望能够使得排序结果与用户查询更加相关,其算法如下:(1) 首先根据用户查询得到初步检索结果,从初次检索结果里面选择前列K个页面构成重新排序的一个页面集合;在选择页面时候对于属于同一网站的多个页面,只保留分值最高的页面,其它页面忽略;(...

2018-04-17 14:26:41 478

原创 搜索引擎设计实用教程(5)-以百度为例

    Cache是目前实用的搜索引擎都必备的功能,因为研究表明用户的查询有相当比例(30%-40%)是重复的,而且大多数重复的用户查询会在较短的间隔时间被再次重复访问.比如说目前"芙蓉姐姐"成为街头巷议的美谈,那么不仅张三想搜索"芙蓉姐姐",王二麻子同样也想搜索,以免被隔壁的李四笑话赶不上时代潮流.既然大家的关注焦点是差不多的,那么没有必要每次接受到查询后都从索引库里面查找,把大...

2018-04-17 14:26:11 223

原创 C#学习笔记

1. 重点放在c#和c 不同的地方,比如接口,代理,对象索引,事件,sealed等2. 事件(EVENT)是一个很好的概念。它将传统IDE里面事件驱动程序的思想加入到语言层面支持上来。结合delegate将对象相应的事件和事件处理代码绑定。3. c#为什么在支持interface的同时还支持abstract类声明?刚开始觉得既然abstract实际上相当...

2018-04-17 14:25:26 216

原创 搜索2.0:利用用户点击记录改善搜索结果

现在是WEB2.0时代了(据真实传言好像已经快4.0了,比微软升级还快,我估计年底前会出现web5.0的说法,大家赶紧想想应该是什么,争取第一个提出这个概念,为中国争光),大家都在讲UGC(用户产生内容。My definition of UGC2.0:Used Garbage Content(come on,just a joke)),如果从利用用户产生的内容来提高网站效果这个角度看...

2018-04-16 18:46:13 243

原创 IT创业模式分析

IT创业模式分析author:malefactor time: 2003年11月模式一:要有超乎常人的技术发展和市场需求的洞察力。支持案例:几乎所有大的成功IT企业必备的成功要素。模式二:在产品推广初期,不要太在意盈利问题,新开拓的市场的培育和市场分额的大面积占领才是最重要的。这样才能主导未来产品方向。“我们是一群生逢其时的大学毕业生,我从浏览器上学到最大的收获就是占领...

2018-04-16 18:46:12 441

原创 视频搜索时代到来了吗?[翻译]

    尽管很令人伤感但是这是真实的--我们可以通过衡量某个市场的可被操纵程度来评估任何市场的成熟程度. 根据这一衡量标准,从华尔街周刊的"作弊手段正在侵蚀视频站点并误导用户"一文可以推断: 视频搜索时代已经到来.      华尔街周刊发现,许多用户都在视频片段上标注和视频内容不相干关键词,这一点可以从热门查询词的搜索结果看出来。例如,如果从谷歌公司的youtube搜索一串热门视频...

2018-04-16 18:45:25 153

原创 Orion算法:GOOGLE干掉百度的核武器?

怎么样?这篇文章的标题够气派吧?说实话,我写完了看着也吓了一跳,我问自己:这题目真是你自己起的么?神来执笔啊!!估计李白喝5斤牛栏山二锅头也不过这样吧.我也承认题目起得有点吓人,其实我的根本目的是啥呢,就是用这么个标题来炒做一下,增加点浏览量,实际我的blog浏览量已经很高了,不信我给你算算,你看,上上个星期我点击过50次,上个星期我点击过50次,算上我自己的点击,目前浏览量已经高达...

2018-04-16 18:45:13 233

原创 博客搜索引擎索引博文数量分析与评估

 我一直希望能够通过一种手段统计出目前博客世界的一些情况,比如现在中文博文大约总数有多少。 比如中国的博客总数有多少,比如博客中的色情狂有多少等等严肃的学术问题。出于这个目的,着手进行 调查,本文主要探讨中文博文数量的总体估计以及各个博客搜索引擎的索引量的评估。 调查目的:目前各个博客搜索引擎索引博文数量范围。由此推出可能的中文博文数量; 调查方法:抽样调查法。我自己建立一个小的博客...

2018-04-16 18:45:12 243

原创 搜索引擎anti-spam系统设计指南

一. 设计原则与整体体系结构1.1 设计原则搜索引擎ANTI-SPAM作为一个新型的技术领域,目前逐渐引起学术届和搜索引擎市场的逐步重视.通过大量资料分析,我认为一个好的实用ANTI-SPAM系统应该遵循以下两个设计原则:原则1.实用的搜索引擎ANTI-SPAM系统应该允许核心算法公布,并且在核心算法公布之后不会导致现有ANTI-SPAM系统的失效.原则2.实用的搜索引擎AN...

2018-04-16 18:45:11 500

原创 模式的分类

1.按照抽象级别可以分为:(a)分析模式:早期需求分析分析阶段的一些模式。(b)体系结构模式:设计阶段可复用设计经验。往往重点放在软件整体结构方面。(c)设计模式:设计阶段可复用的模式。往往重点放在整体结构中的子结构。(d)惯用法:编程阶段的一些经验,往往和编程语言相关。2. 按照领域可以分为:(a)通用模式:领域无关,任何领域都可能涉及到的模式,这种模式往往重点放在软件...

2018-04-16 18:43:08 736

原创 voting设计模式

Voting 模式1.语境:这个设计模式是从多人投票的模型中抽象出来的,其中参与者voter是一个个投票者,每个投票者都维护一个状态COUNT,VOTE()操作可以改变COUNT的状态,COUNTER是计票器,每个投票者可以通过ATTACH()和DETACH()操作与COUNTER联系起来,同时COUNTER通知每个登记的投票者去投票,然后通过COUNTWINNER()操...

2018-04-16 18:43:07 212

原创 Google小组研发模式分析

 GOOGLE和其他大公司采用不同的研发模式,其研发模式是小组开发。这个研发模式可以说是GOOGLE目前最大的核心竞争力。这种研发模式诱发了不断的创新。但是很明显的一点是:这种研发模式只是适用于现阶段GOOGLE的模式,最终这种模式会被其他研发模式取代。1.研发模式媒体采访描述:“关于创新机制,李博士提到,在Google有个「点子库」,每个人都可以抛出新点子,让大家「用脚」投票,即让...

2018-04-16 18:42:06 128

原创 搜索引擎设计实用教程(4)-以百度为例

    相关提示也是几乎所有搜索引擎提供的一个附加功能,所谓相关提示,就是对于用户提交的查询进行分析,然后根据其它用户相似的查询给予用户提示,比如我输入查询”大长今”,检索系统会提示其它象”大长今主题曲”,”大长今下载”等等相关的一些其它用户查询.     那么搜索引擎是根据什么原则对于其它用户的查询进行选择来提示用户相关查询呢?我们还是以百度为例子来看看怎么实现这个功能...

2018-04-16 18:05:18 239

原创 幽默的手段(部分)

基础:1.自嘲是必要的,嘲笑别人会招来记恨,如果首先嘲笑自己的缺点,然后再拿别人开玩笑,往往别人不会因此记恨.2.幽默的最本质核心是出乎意料,出奇制胜.在最后抖出笑料的时候,前面的所有铺垫都是用于将听者的思维向最后的结论相反的方向进行引导,这样听到最后的结论会感到突兀,产生幽默效果.3.讲笑话根据难度由高到低可以分为几种,一种是自己根据所在场景自己创造的,这种情况要看天赋,需要...

2018-04-16 18:05:07 263

原创 BSP细分时代即将来临

/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ author:张俊林timestamp:2007/61.BSP细分的可能性首先我自己判断一个市场是否成熟的一个标准是: 如果一个产品或者服务市场是面向一般大众的,但是目前还不是细分程度很明确的市场,那么可以得出结论a.这是一个不很成熟,有待进一步深入开垦的市场;b.真正的机会在于细分市场,提供高品质的细...

2018-04-16 18:05:05 174

原创 为人箴言

1、己所勿欲,勿施于人。 语出《论语.颜渊》 2、己欲立而立人。己欲达而达人。 语出《论语.雍也》 3、乡原,德之贼也。 语出《论语.阳货》 4、无伐善。无施劳。 语出《论语.公冶长》 5、不患人之不己知,患不知人也。 语出《论语.学而》 6、以文会友,以友辅仁。 语出《论语.颜渊》 7、志士仁人,无求身以害仁,有杀身以成仁。 语出《论语.卫灵公》 8、君子和而不同,小人同而不和。 ...

2018-04-16 18:05:05 181

原创 睡眠与做梦

睡眠与做梦张俊林timestamp:2006/12/41.人为什么一定要睡觉呢?为什么一定要做梦呢?2. 梦分解为两个因素:物理刺激因素和压抑欲望浮出理智控制因素.物理刺激导致相关大脑皮层脑细胞活跃带动附近区域脑细胞, 比如脚裸露在寒冷空气会梦到站在雪地里面,这个其实是一个无意识联想的过程,可以推理联想能力强的人做梦频繁而且梦更加怪异.另外一个因素是在现实生活中被理智压抑的低级情感在...

2018-04-16 18:04:17 193

原创 现代的时代精神是什么?

 现代的时代精神是什么?张俊林timestamp:2006/12/4后现代思潮下的极端追求个性化导致无归属感?功利主义与现实主义导致及时行乐思想蔓延?缺乏信仰导致“金钱崇拜”以及“权力崇拜”?传统文化缺失,新文化的囫囵吞枣式的理解导致没有任何道德约束和缺乏责任感?剧烈的变革现实导致不安全感增强,对未来的迷茫。怀旧情绪滋长?工业化过细分工导致对工作缺乏热情,容易产生无奈感和渺小自卑情绪...

2018-04-16 18:04:06 354

原创 知客:现代“买椟还珠”故事

 新知客:现代“买椟还珠”故事TimeStamp:2007/71.现代“买椟还珠”故事新知客的前身好像叫<探索发现>,是天津一家出版社出的,定位和现在的<新发现>类似,没改版前我是追着买但是往往买不到,因为销售终端很少。自从改名改版以来,杂志内容越来越无法恭维,其转型的狼子野心越来越露骨,刚开始还靠点谱,讲点人际关系,经济学常识,心理常识,转到后来估计...

2018-04-16 18:00:58 342

原创 搜索引擎设计实用教程(2)-以百度为例

  拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是怎么实现这一功能的.   我们分析拼写检查系统关注以下几个问题:   (1)系统如何判断用户的输入是有可能发生错误的查询呢?   (2)如果判断是可能错误的查询输入,如何提示正确的词汇呢?...

2018-04-16 18:00:46 368

原创 搜索引擎web spam类型及防治策略(version 0.9)

/*版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明 .*/搜索引擎web spam类型及防治策略(version 0.9) 中科院软件所 张俊林 2005年7月搜索引擎的目的是发现和用户查询”相关”而且”重要”的页面.一般来说网页是否和用户查询相关是根据内容判断的,而重要性是根据链接分析得到的.web spam通常从内容作弊,链接作弊,信...

2018-04-16 18:00:25 502

原创 谁动了我的思想

谁动了我的思想--商业社会会降低人的思考力吗?张俊林timestamp:2006年11月26日最近上班比较远,好在订了班车,不用继续在上班高峰期在地铁上被迫和陌生的男人女人跳贴面舞了。路上的两个小时,可以比较安静的考虑一些工作的或者非工作的问题,当然,前提是班车上的若干中年妇女能够每天都能如我所愿地保持昏昏欲睡的半昏迷状态,而不是像吃了兴奋剂一样喋喋不休的谈论张家小狗惊喜地生了一头...

2018-04-16 12:03:02 149

原创 虚无主义还是怀疑论?

 虚无主义还是怀疑论?time stamp:2006年5月1日如果骄傲没被现实大海冷冷淹没又怎会懂得要多努力才走得到远方如果梦想不曾坠落悬崖千钧一发又怎会晓得执着的人有隐形翅牓把眼泪装在心上会开出勇敢的花可以在疲惫的时光闭上眼睛闻到一种芬芳就像好好睡了一夜直到天亮又能边走着边哼着歌用轻快的步伐沮丧时总会明显感到孤独的重量多渴望懂得的人给些温暖借个肩膀很高兴一路上我们的默契那么...

2018-04-16 12:00:51 231

原创 爱你就是爱自己

malefactor2005.9 什么是爱?爱是对自身的一种延伸导致的依恋.本质上任何爱都是"爱自己".亲情之爱,是血缘关系导致可以将家庭成员看作是自身的一部分.爱亲人就是爱自己.朋友之爱,之所以成为朋友是因为对方有自己共通的特性,或者自身缺乏但是希望拥有的特性.如果是共通的特性,爱朋友就是爱自己也拥有的的这个共通特性,如果是缺乏这个特性,则是爱自己的梦想.爱朋友就是爱自己.男...

2018-04-16 12:00:34 149

原创 人,人生,人类,思考

malefactor2005.101.对于我们每个人来说,任何一个个体不过都是井底之蛙,一个人从出生到死亡,所经历的是有限的,他的所有经历造就了他的世界观,方法论.也许每个人看到的那一片天都是不同的,事实上也不可能是相同的,可能有的人看到的天会更加宽广一些,但是对于任何个体来说都是有局限的.由此推理,世界上没有所谓的权威,应该怀疑一切,因为所谓的权威也只是一只观天的青蛙而已;同...

2018-04-16 12:00:33 159

原创 英语学习的一些经验

英语学习的一点经验中科院软件所 张俊林英语口语的学习其实本质上可以分解为以下三个关键部分:a. 词汇表的大小以及每个词汇的正确发音。如果应付日常会话,词汇规模应该在4000—6000之间。对于词汇发音来说,存在两个层次:首先最基本的是发音要正确。正确包括每个音节发音是正确的以及重音的落点是正确的。其次高一点的要求是发音要地道。所谓地道是指音节之间发音时的连接关系以及发...

2018-04-16 12:00:33 156

原创 曾经的一些对联

从前经常在天涯对联版和人对对子玩,现在也没有这个精力和雅致了,现整理并摘录部分以做纪念,标为my的是我对的,other的是其它网友出的对子:与谁共忆楼中鹤, (other)携侣同书墨底香。 (my)狐狸借威全凭虎(my)猴子装腔冒充人(other)菱花脉脉聆花语(my)流水潺潺留水声(other)仙风阆苑,瑶台奇葩,神游魂飞知梦远。(other)金谷俊游,高唐佳境,雨散云消念...

2018-04-16 12:00:33 221

原创 互联网大鳄的成长模式

 /*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 互联网大鳄的成长模式author:张俊林timestamp:2007/4所谓互联网大鳄的含义,可以通过举例来说明,从国际上说比如如日中天的GOOGLE,微软,雅虎,从国内来说比如百度,腾讯等。一般来说,这些公司从互联网新秀成长到互联网大鳄要经过以下五个阶段: 第一阶段:新秀期俗话说,三岁看大,七岁看老。这...

2018-04-16 12:00:02 255

原创 大话主题敏感PageRank

本文节选自《这就是搜索引擎:核心技术详解》第六章主题敏感PageRank是PageRank算法的改进版本,该算法已被Google使用在个性化搜索服务中。6.6.1 主题敏感PageRank与PageRank的差异PageRank算法基本遵循前面章节提到的“随机游走模型”,即用户在浏览某个网页时,如果希望跳转到其它页面,则随机选择本网页包含的某个链接,进入另外一个页面。...

2018-04-16 11:59:32 190

原创 google怎么做(2.相似网页算法)

我们使用GOOGLE在检索结果列表里面每个检索结果会有”相似网页(Similar pages)”的链接,主要提供和所列出的页面相似的网页,那么这个功能是如何实现的?GOOGLE(http://googlechinablog.com/2006/04/blog-post_10.html)利用链接分析来提供相关网页的功能,其基本思路是:如果一个页面和另外一个页面相似,那么其链接关系也是相...

2018-04-16 11:58:12 369

原创 百度国学搜索探密

年底写论文作实验搞得头昏脑胀,中午放松一下上网看看新闻,原来百度推出了国学搜索,平常也比较喜欢看诗词歌赋方面的东西,就上百度试了试,结果搜索结果让我感觉哪里好像不对劲,所以就稍微花点时间看看百度在后面作了些什么.我说的不对劲到不是搜索结果本身,而是搜索结果的存放方式,你会发现百度所有搜索结果都放在http://guoxue.baidu.com/page/这个目录下面.比如搜索”诗经...

2018-04-16 11:57:48 855

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除