自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 实现自己的搜索引擎(二)

这一节我们来看看搜索引擎中最重要的几个数据结构。前面我们说过索引包含正向索引和反向索引两部分,首先我们看看正向索引的结构。正向索引用来存储文档的各种属性,从逻辑上讲,正向索引其实就是一个大数组,数组中每个元素就是一个文档的属性集合。如果正向索引是有Schema的,那么它其实就类似一个关系表或者说二维数组,纵轴是文档,横轴是属性;如果正向索引是Schema Free的,那

2012-08-03 22:50:05 843

原创 实现自己的搜索引擎(一)

搜索引擎的原理其实很简单,写出来没两页纸,但是实现中的各种细节写成的论文可以堆满两个图书馆。让我们先从原理说起。首先需要用输入数据创建索引,对于互联网搜索引擎,输入数据是一个个由爬虫从网上抓回来的网页,经过清洗之后进行内容抽取,然后整理成统一的格式交给索引程序创建索引。索引由以下几个基本的组成部分:1. 倒排索引,这一部分存放"关键字"->文档的映射,一般来说会把同

2012-08-03 22:49:30 953

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除