lingjoin-CSDN博客

空空如也

LJParser文本搜索与挖掘开发平台

一、简介 LJParser文本搜索与挖掘开发平台包括：全文精准搜索，新词发现，汉语分词标注，词语统计与术语翻译，自动聚类与热点发现，分类过滤，自动摘要，关键词提取，文档去重，正文提取等十余项功能。针对互联网内容处理的需要，融合了自然语言理解、网络搜索和文本挖掘的技术，提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成，各个中间件API可以无缝地融合到客户的各类复杂应用系统之中，可兼容Windows，Linux， Android，Maemo5, FreeBSD等不同操作系统平台，可以供Java，C，C#等各类开发语言使用。 LJParser是一套专门针对原始文本集进行处理和加工的软件，提供了中间件处理效果的可视化展示，也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。二、功能 LJParser文本搜索与挖掘开发平台的十大功能： 1. 全文精准检索支持文本、数字、日期、字符串等各种数据类型，多字段的高效搜索，支持AND/OR/NOT以及NEAR邻近等查询语法，支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 2. 新词发现：从文件集合中挖掘出内涵的新词语列表，可以用于用户专业词典的编撰；还可以进一步编辑标注，导入分词词典中，从而提高分词系统的准确度，并适应新的语言变化。 3. 分词标注：对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中，导入用户定义的词典。 4. 统计分析与术语翻译针对切分标注结果，系统可以自动地进行一元词频统计、二元词语转移概率统计（统计两个词左右连接的频次即概率）。针对常用的术语，会自动给出相应的英文解释。 5. 文本聚类及热点分析能够从大规模数据中自动分析出热点事件，并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。 6. 分类过滤针对事先指定的规则和示例样本，系统自动从海量文档中筛选出符合需求的样本。 7. 自动摘要能够对单篇或多篇文章，自动提炼出内容的精华，方便用户快速浏览文本内容。 8. 关键词提取能够对单篇文章或文章集合，提取出若干个代表文章中心思想的词汇或短语，可用于精化阅读、语义查询和快速匹配等。 9. 文档去重能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录，同时找出所有的重复记录。 10. HTML正文提取自动剔除导航性质的网页，剔除网页中的HTML标签和导航、广告等干扰性文字，返回有价值的正文内容。适用于大规模互联网信息的预处理和分析。三、文件说明 1. LJParser.exe 可执行文件，本版本为试用版本，大规模语料处理需要购买正式版 2. 演示语料演示用语料，用户可替换，必须为文本文件，演示只支持GBK；正式版本可以支持UTF-8编码； 3. 各种dll为各组件的调用接口，本演示程序全部基于已有的调用接口实现； 4. 文档说明，参见当前目录下的 5. 白皮书下载：http://www.lingjoin.com/download/LJParser%20Manual.doc 6. 软件下载：http://www.lingjoin.com/download/LJParser.rar

2010-05-11

DBTSearch软件开发包

DBTSearch功能简介：数据库管理系统存储的一般都是结构化数据，长足于数值的计算、查询、统计与挖掘。随着计算机存储与计算能力的迅猛发展，越来越多的非结构化文本数据存储在数据库中，数据库中的文本搜索日益广泛。当前，数据库中的文本搜索，一般采用SQL语句中的Like操作符或者采用数据库系统自带的全文索引功能。Like操作往往特别耗时，数据规模超过10万条，查询往往会导致网络连接超时，无法满足在线搜索的需要；同时，Like查询仅仅是简单的字符串匹配，没有考虑语言语义，检索“和服”，同样会命中“产品和服务”。当前，数据库内置的全文索引功能，速度和效果同样存在类似缺陷。因此，在数据库系统基础上，需要对非结构化文本字段构建智能的搜索引擎。 DBTSearch全文搜索引擎是一套专门针对数据库的全文智能搜索引擎系统，可以无缝地与现有数据库系统融合，实现全文搜索与相关的数据库管理应用系统。 DBTSearch主要特色： * DBTSearch兼容当前所有厂商的数据库系统，其中SQL Server, Oracle, MySQL，DB2等； * DBTSearch可以按照任意指定字段的排序，支持指定字段的搜索，也可以搜索多个字段，以及复杂表达式的综合搜索； * DBTSearch支持精确匹配以及模糊匹配，默认为精确匹配，忽略字母大小写进行模糊匹配； * DBTSearch提供Windows,Linux的C和JNI接口； * DBTSearch实现的是多线程搜索服务； * DBTSearch每秒可索引3000条记录（主要瓶颈为数据库记录读取效率）；搜索速度在毫秒级别。 * DBTSearch支持增量更新。

2010-03-09

LJCluster文本聚类技术中间件

文本聚类是基于相似性算法的自动聚类技术，自动对大量无类别的文档进行归类，把内容相近的文档归为一类，并自动为该类生成特征主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。灵玖Lingjoin（www.lingjoin.com）基于核心特征发现技术，突破了传统聚类方法空间消耗大，处理时间长的瓶颈；不仅聚类速度快，而且准确率高，内存消耗小，特别适合于超大规模的语料聚类和短文本的语料聚类。灵玖文档聚类组件的主要特色在于： 1、速度快：可以处理海量规模的网络文本数据，平均每小时处理至少50万篇文档； 2、聚类精准：Top N的聚类中心往往能反映出当时的时事热点，适合于舆情热点计算；与国际上以聚类见长的Autonomy公司技术相比，灵玖的各项指标远远领先，或许是灵玖更懂中文吧 3、精准排序：各个类别按照影响权重排序，每个类中的文档按照重要性排序； 4、可定制：可以定制类别数、类别中心。 5、开放式接口：灵玖文档聚类组件作为LJParser的一部分，采用灵活的开发接口，可以方便地融入到用户的业务系统中，可以支持各种操作系统，各类调用语言。灵玖文档聚类可以应用于文本挖掘、知识管理、搜索聚类、舆情监测等多种应用中。

2010-03-09

LJFeatureDet特征词发现技术中间件

特征词发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语，是语言文献分析方面的一把利器。特征词发现脱胎于语言自动分词技术，又是对分词技术的有效提升和补充。灵玖Lingjoin（www.lingjoin.com）采用基于语义的统计语言模型，所处理的文档不受行业领域限制，能够有效地挖掘出新出现的特征词汇，所输出的词汇可以配以权重。灵玖特征词发现组件的主要特色在于： 1、速度快：可以处理海量规模的网络文本数据，平均每小时处理至少60万篇文档； 2、处理精准：Top N的分析结果往往能反映出当时的时事流行语和热点实体，适合于舆情热点计算；与国际上著名厂商的技术相比，灵玖的各项指标远远领先，或许是灵玖更懂中文吧； 3、精准排序：特征词汇按照影响权重排序，可以输出权重值； 5、开放式接口：灵玖特征词发现组件作为LJParser的一部分，采用灵活的开发接口，可以方便地融入到用户的业务系统中，可以支持各种操作系统，各类调用语言。灵玖特征词发现组件可以应用于文本挖掘、知识管理、词典编辑、舆情监测等多种应用中。

2010-03-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人