自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (2)
  • 收藏
  • 关注

原创 中文分词字典的序列化

...接上回有的时候真的很羡慕写JAVA的,反正我自己是没有接触过了。(虽然我会点JAVASCRIPT,可惜地球人都知道,这是两个完全不同的东西。)根据网上查找“DELPHI对象序列化”的结果,好像是在JAVA里面可以将自定义对象直接保存成物理文件(序列化)。可惜DELPHI里面不能,或者是我没找到方法,或者是因为需要的时间太多,总之是怎么简单、这么快就怎么来了。所以决定自己再写一段代码,将转

2008-03-30 00:46:00 587

原创 中文分词字典的设计

用DELPHI做一个东西,希望能自动将一篇中文文章中出现比较多(词频)、内容比较重要(权重)的单词自动的切分出来(中文分词)。自己写出来一段代码,思路是这样的:1.首先将分词字典用HashStringList载入,用Hash查找比较快。2.将所有的标点符号都看成分隔符。(具体实现是将所有中英文的标点符号都替换成换行回车,然后对每一行进行中文分词)3.对每一个句子进行中文分词。具体实现是,3

2008-03-30 00:20:00 1138

原创 TPerlRegEx中匹配中文标点符号

最近在用delphi7写一些东西,需要用到正则表达式。以前做网页的时候,一直用 JavaScript/VBScript里面的正则表达式。昨天换了TPerlRegEx用,感觉真的很有些不习惯。本来要写一个匹配中文标点符号的,匹配英文代码如下 FRe:=TPerlRegEx.Create(nil);  FRe.Subject:=Str;  FRe.RegEx:=[`!@#/$%/^&/*/(/)

2008-03-25 11:55:00 1113

SCWS繁体中文分词辞典txt格式

这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。本系统支持的汉字编码包括 GBK、UTF-8在线分词演示:G B K: http://www.hightman.cn/demo/scws/v4.php UTF-8: http://www.hightman.cn/demo/scws/v48.php 详情可参看:http://www.hightman.cn/?scws

2008-03-15

SCWS简体中文分词辞典txt格式

这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。本系统支持的汉字编码包括 GBK、UTF-8在线分词演示:G B K: http://www.hightman.cn/demo/scws/v4.php UTF-8: http://www.hightman.cn/demo/scws/v48.php 详情可参看:http://www.hightman.cn/?scws

2008-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除