- 博客(0)
- 资源 (5)
空空如也
盘古分词 说明书
文件说明
PanGuSegment
这个是盘古分词的组件包,包括
PanGu.dll 盘古分词的核心组件
DictManage.exe 字典管理工具
Demo.exe 分词演示程序
PanGu.HighLight.dll 高亮组件
PanGu4Lucene
这个是盘古分词针对Lucene.net 提供的接口
PanGu.Lucene.Analyzer.dll 盘古分词针对Lucene.net 的接口组件
PanGu.Lucene.ImportTool.exe 示例程序数据导入程序
2013-02-17
盘古分词源代码
盘古分词是一个基于 .net framework 的中英文分词组件。主要功能
中文未登录词识别
盘古分词可以对一些不在字典中的未登录词自动识别
词频优先
盘古分词可以根据词频来解决分词的歧义问题
多元分词
盘古分词提供多重输出解决分词粒度和分词精度权衡的问题
中文人名识别
输入: “张三说的确实在理”
分词结果:张三/说/的/确实/在理/
输入 “李三买了一张三角桌子”
分词结果:李三/买/了/一张/三角/桌子/
强制一元分词
输入 “张三说的确实在理”
分词结果: 张(0,1)/张三(0,5)/三说的(1,1)/三(1,1)/说(2,5)/的(3,5)/确(4,1)/确实(4,5)/实(5,1)/在 (6,1)/在理(6,5)/理(7,1)/
繁体中文分词
输入"我的選擇"
分词结果: 我/的/選擇/
同时输出简体和繁体
输入"我的選擇"
分词结果:我(0,5)/的(1,5)/选择(2,1)/選擇(2,5)/
中文词性输出
盘古分词可以将以登录词的中文词性输出给用户,以方便用户做进一步处理。
全角字符支持
盘古分词可以识别全角的字母和数字
2013-02-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人