自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(0)
  • 资源 (5)
  • 收藏
  • 关注

空空如也

基于中文的Shuzhen分词器1.1.4提供下载

此版本改进为:分词时采用了完全匹配方式(自命名的),也即将符合字典条目的词全部切分出来,在基于字典的分词中达到了“分无可分”的程度;分词时完全按照标准分词来进行,这样保证了在和一些高亮显示组件如highlighter一起使用时,能准确无误的将命中进行高亮显示,避免了Google高亮显示的 Bug;配置文件的存放支持相对路径,这样更灵活,更方便应用在一些虚拟机上;字典条目支持导入到内存中,也就是在原有JDBM字典系统的基础上增加内存字典系统,且能方便自定义导入多少条目到内存中,能自定义使用内存还是JDBM字典系统还是两者结合起来使用,从而提高了索引创建速度;改进了对搜索词的处理;能对字典系统进行管理;另外也提供适合jdk1.5的版本。 详细信息可参见官方网站:http://www.shuzhen.net

2008-10-22

ShuzhenAnalyzer-1.1.3

ShuzhenAnalyzer-1.1.3是一款用java写的基于字典的中文分词器,可以与Lucene(目前只测试了与Lucene2.2.0版本一起使用的情况,其他版本Lucene版本未测试过)一起使用来构建搜索引擎系统 其特性如下: 1、基于字典系统分词,采用了JDBM文件数据库系统来作为字典系统,字典系统数量理论上可以趋于无穷多而绝不会出现内存溢出现象 2、在1中的前提下,索引创建及搜索速度受字典条目数量影响小到可以忽略不计 3、可以很方便对字典系统进行管理,管理功能如下: 3.1、往字典系统中增加单个条目 3.2、往字典系统中增加多个条目 3.3、利用txt文件往字典系统中批量增加多个条目 3.4、删除字典系统中指定的某一个条目 4、对搜索词提供了两种处理方式,可以更好地应用在不同需求的系统中,提高搜索结果的质量 如:字典条目中如果存在 功夫熊猫、有趣 两个条目,搜索词为:功夫熊猫是很有趣的一部电影, 那么用两种方式分别对此搜索词进行处理过的结果如下: 第一种处理后的结果:功夫熊猫 是 很 有趣 的 一 部 电 影 第二种处理后的结果:功夫熊猫 有趣 值得特别注意的是:在对搜索词进行处理时忽略了以下几个特殊符合:!、|、-、",主要是为了满足关键词中特殊字符的要求,比如在google搜索中,用"关键词"表示结果中必须包含双引号包含的关键词,在lucene中, 用"关键词1 -关键词2"表示搜索结果中包含关键词1但不包含关键词2等 最新版本请参见:http://www.shuzhen.net

2008-09-21

xslt手册

xslt xml学习不错的教程

2008-07-22

中文分词器ShuzhenAnalyzer-1.1.0提供下载

此版本不要再下载了,最新版本请参见:http://www.shuzhen.net

2008-07-19

ShuzhenAnalyzer中文分词器

此版本不要再下载了,最新版本请参见:http://www.shuzhen.net

2008-07-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除