oldfox126-CSDN博客

原创中文分词字典的序列化

...接上回有的时候真的很羡慕写JAVA的，反正我自己是没有接触过了。（虽然我会点JAVASCRIPT，可惜地球人都知道，这是两个完全不同的东西。）根据网上查找“DELPHI对象序列化”的结果，好像是在JAVA里面可以将自定义对象直接保存成物理文件（序列化）。可惜DELPHI里面不能，或者是我没找到方法，或者是因为需要的时间太多，总之是怎么简单、这么快就怎么来了。所以决定自己再写一段代码，将转

2008-03-30 00:46:00 587

原创中文分词字典的设计

用DELPHI做一个东西，希望能自动将一篇中文文章中出现比较多（词频）、内容比较重要（权重）的单词自动的切分出来（中文分词）。自己写出来一段代码，思路是这样的：1.首先将分词字典用HashStringList载入，用Hash查找比较快。2.将所有的标点符号都看成分隔符。（具体实现是将所有中英文的标点符号都替换成换行回车，然后对每一行进行中文分词）3.对每一个句子进行中文分词。具体实现是，3

2008-03-30 00:20:00 1138

原创 TPerlRegEx中匹配中文标点符号

最近在用delphi7写一些东西，需要用到正则表达式。以前做网页的时候，一直用 JavaScript/VBScript里面的正则表达式。昨天换了TPerlRegEx用，感觉真的很有些不习惯。本来要写一个匹配中文标点符号的，匹配英文代码如下 FRe:=TPerlRegEx.Create(nil); FRe.Subject:=Str; FRe.RegEx:=[`!@#/$%/^&/*/(/)

2008-03-25 11:55:00 1113

这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写（简易中文分词系统）。它是一套基于词频词典的机械中文分词引擎，它能将一整段的汉字基本正确的切分成词，因为词是汉语的基本语素单位，而书写的时候不像英语会在词之间用空格分开，所以如何准确快速的分词一直是中文分词的攻关难点。本分词法并无太多创新成分，采用的是自己采集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词，经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。本系统支持的汉字编码包括 GBK、UTF-8在线分词演示：G B K: http://www.hightman.cn/demo/scws/v4.php UTF-8: http://www.hightman.cn/demo/scws/v48.php 详情可参看：http://www.hightman.cn/?scws

2008-03-15

SCWS简体中文分词辞典txt格式

这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写（简易中文分词系统）。它是一套基于词频词典的机械中文分词引擎，它能将一整段的汉字基本正确的切分成词，因为词是汉语的基本语素单位，而书写的时候不像英语会在词之间用空格分开，所以如何准确快速的分词一直是中文分词的攻关难点。本分词法并无太多创新成分，采用的是自己采集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词，经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。本系统支持的汉字编码包括 GBK、UTF-8在线分词演示：G B K: http://www.hightman.cn/demo/scws/v4.php UTF-8: http://www.hightman.cn/demo/scws/v48.php 详情可参看：http://www.hightman.cn/?scws

2008-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

oldfox126的专栏

原创中文分词字典的序列化

原创中文分词字典的设计

原创 TPerlRegEx中匹配中文标点符号

SCWS繁体中文分词辞典txt格式

SCWS简体中文分词辞典txt格式

空空如也

原创 中文分词字典的序列化

原创 中文分词字典的设计

原创 TPerlRegEx中匹配中文标点符号

SCWS繁体中文分词辞典txt格式

SCWS简体中文分词辞典txt格式

空空如也

原创中文分词字典的序列化

原创中文分词字典的设计