yuanjian0211-CSDN博客

排序：: 按最后发布时间; 按访问量; RSS订阅

空空如也

基于中文的Shuzhen分词器1.1.4提供下载

此版本改进为：分词时采用了完全匹配方式（自命名的），也即将符合字典条目的词全部切分出来，在基于字典的分词中达到了“分无可分”的程度；分词时完全按照标准分词来进行，这样保证了在和一些高亮显示组件如highlighter一起使用时，能准确无误的将命中进行高亮显示,避免了Google高亮显示的 Bug；配置文件的存放支持相对路径，这样更灵活，更方便应用在一些虚拟机上；字典条目支持导入到内存中，也就是在原有JDBM字典系统的基础上增加内存字典系统，且能方便自定义导入多少条目到内存中，能自定义使用内存还是JDBM字典系统还是两者结合起来使用，从而提高了索引创建速度；改进了对搜索词的处理；能对字典系统进行管理；另外也提供适合jdk1.5的版本。详细信息可参见官方网站：http://www.shuzhen.net

2008-10-22

ShuzhenAnalyzer-1.1.3

ShuzhenAnalyzer-1.1.3是一款用java写的基于字典的中文分词器，可以与Lucene(目前只测试了与Lucene2.2.0版本一起使用的情况，其他版本Lucene版本未测试过)一起使用来构建搜索引擎系统其特性如下： 1、基于字典系统分词，采用了JDBM文件数据库系统来作为字典系统，字典系统数量理论上可以趋于无穷多而绝不会出现内存溢出现象 2、在1中的前提下，索引创建及搜索速度受字典条目数量影响小到可以忽略不计 3、可以很方便对字典系统进行管理，管理功能如下： 3.1、往字典系统中增加单个条目 3.2、往字典系统中增加多个条目 3.3、利用txt文件往字典系统中批量增加多个条目 3.4、删除字典系统中指定的某一个条目 4、对搜索词提供了两种处理方式，可以更好地应用在不同需求的系统中，提高搜索结果的质量如：字典条目中如果存在功夫熊猫、有趣两个条目，搜索词为：功夫熊猫是很有趣的一部电影，那么用两种方式分别对此搜索词进行处理过的结果如下：第一种处理后的结果：功夫熊猫是很有趣的一部电影第二种处理后的结果：功夫熊猫有趣值得特别注意的是：在对搜索词进行处理时忽略了以下几个特殊符合：!、|、-、"，主要是为了满足关键词中特殊字符的要求，比如在google搜索中，用"关键词"表示结果中必须包含双引号包含的关键词，在lucene中，用"关键词1 -关键词2"表示搜索结果中包含关键词1但不包含关键词2等最新版本请参见：http://www.shuzhen.net

2008-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yuanjian0211的专栏

空空如也

基于中文的Shuzhen分词器1.1.4提供下载

ShuzhenAnalyzer-1.1.3

xslt手册

中文分词器ShuzhenAnalyzer-1.1.0提供下载

ShuzhenAnalyzer中文分词器

空空如也