- 博客(0)
- 资源 (5)
- 收藏
- 关注
基于中文的Shuzhen分词器1.1.4提供下载
此版本改进为:分词时采用了完全匹配方式(自命名的),也即将符合字典条目的词全部切分出来,在基于字典的分词中达到了“分无可分”的程度;分词时完全按照标准分词来进行,这样保证了在和一些高亮显示组件如highlighter一起使用时,能准确无误的将命中进行高亮显示,避免了Google高亮显示的 Bug;配置文件的存放支持相对路径,这样更灵活,更方便应用在一些虚拟机上;字典条目支持导入到内存中,也就是在原有JDBM字典系统的基础上增加内存字典系统,且能方便自定义导入多少条目到内存中,能自定义使用内存还是JDBM字典系统还是两者结合起来使用,从而提高了索引创建速度;改进了对搜索词的处理;能对字典系统进行管理;另外也提供适合jdk1.5的版本。
详细信息可参见官方网站:http://www.shuzhen.net
2008-10-22
ShuzhenAnalyzer-1.1.3
ShuzhenAnalyzer-1.1.3是一款用java写的基于字典的中文分词器,可以与Lucene(目前只测试了与Lucene2.2.0版本一起使用的情况,其他版本Lucene版本未测试过)一起使用来构建搜索引擎系统
其特性如下:
1、基于字典系统分词,采用了JDBM文件数据库系统来作为字典系统,字典系统数量理论上可以趋于无穷多而绝不会出现内存溢出现象
2、在1中的前提下,索引创建及搜索速度受字典条目数量影响小到可以忽略不计
3、可以很方便对字典系统进行管理,管理功能如下:
3.1、往字典系统中增加单个条目
3.2、往字典系统中增加多个条目
3.3、利用txt文件往字典系统中批量增加多个条目
3.4、删除字典系统中指定的某一个条目
4、对搜索词提供了两种处理方式,可以更好地应用在不同需求的系统中,提高搜索结果的质量
如:字典条目中如果存在 功夫熊猫、有趣 两个条目,搜索词为:功夫熊猫是很有趣的一部电影,
那么用两种方式分别对此搜索词进行处理过的结果如下:
第一种处理后的结果:功夫熊猫 是 很 有趣 的 一 部 电 影
第二种处理后的结果:功夫熊猫 有趣
值得特别注意的是:在对搜索词进行处理时忽略了以下几个特殊符合:!、|、-、",主要是为了满足关键词中特殊字符的要求,比如在google搜索中,用"关键词"表示结果中必须包含双引号包含的关键词,在lucene中, 用"关键词1 -关键词2"表示搜索结果中包含关键词1但不包含关键词2等
最新版本请参见:http://www.shuzhen.net
2008-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人