自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Matrox的专栏

信息抽取啊信息抽取~~

  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 Web信息自动/半自动抽取系统——演示系统

程序基于 Java6+SWT+Htmlparser+dom4j,代码量总共3000多行 实现以下功能: 1.对输入网页集自动分类(其实是做聚类的工作,但是数学上不严谨) 2.自动提取模板,同时可以人工修正(提供比较方便的编辑器) 3.自动标注语义(仅针对产品信息页面) 4.自动抽取数据,输出为xml文件 点击进入下载页面 抽取系统图示:

2009-10-18 01:21:00 1808 8

原创 对本系统后续工作者的一点建议

对后续工作者的一点建议 build 0910111. 熟悉HtmlParser Java用于解析网页的开源库主要有HtmlParser和NekoHtml,模拟浏览器自动测试的有HtmlUnit,真正解析js或提取dom节点的视觉信息还是靠Mozilla的浏览器。  NekoHtml的效率和发展状况更好,但是实践表明HtmlParser是可以满足信息抽取任务的。HtmlParser结构比较好

2009-10-11 19:28:00 1360

原创 51fe 漫画下载助手 release091008

51漫画下载助手,功能类似于MangaDowner,专用于下载 “超酷漫画连载”版块的漫画,支持自动登陆,多线程下载,纯绿色。做这个东西纯粹是国庆这两天闲的O疼。至于有用没用,这也是个见仁见智的问题,至少有比无要好吧。如果对源码感兴趣,可以在我的blog留言。本软件使用Java开发,需要预装Java运行环境! 软件下载地址(纳米盘):d.namipan.com/downfile/51F

2009-10-08 13:47:00 183783

翻译 Mining Data Records in Web Pages ——挖掘网页中的数据记录

 这篇论文的引用频度比较高,应该说是基于DOM的全自动抽取算法中比较经典的。MDR算法的程序在作者的官网提供下载。限于篇幅,所有图表请参照原文。 作者后来又发表了一篇论文,Web Data Extraction Based on Partial Tree Alignment ,将MDR中的字符串编辑距离算法替换为树的简单匹配算法,新系统命名为DEPTA。 Mining Data

2009-09-27 09:59:00 3077 1

翻译 A Brief Survey of Web Data Extraction Tools Web数据抽取工具综述 (续)

6.参考文献[1] ABASCAL, R., AND SANCHEZ, J. A. X-tract: Structure extraction from botanical textual descriptions. In Proceeding of the String Processing & Information Retrieval Symposium and Internationa

2009-08-28 21:41:00 2002

翻译 A Brief Survey of Web Data Extraction Tools Web数据抽取工具综述

 这是02年的一篇综述,可能是信息抽取领域被引用最多的文章之一。翻译量1W汉字,内容基本是直译的,应该比Google翻译的略强一点吧。这篇文章的恶心之处在于其PDF转换为文本是乱码,所以你也别想用Google翻译了。发在这里,希望对将要做相关毕设的懒鬼们有所帮助。转载请注明出处。A Brief Survey of Web Data Extraction Tools We

2009-08-26 20:34:00 3066

原创 网页信息抽取阶段性成果(续)

 有些文本项,无法自动判断是否为内容项还是导航项,比如“此宝贝与实际相符”等,必须人工标注。 之后人工对模板进行修正,下面是修正后再抽取的结果:  标题 93GS奢华独显本神舟优雅HP650D5售3998-淘宝网 宝贝详情 93GS奢华独显本神舟优雅HP650D5售3998 一 口 价

2009-07-21 11:15:00 921

原创 网页信息抽取阶段性成果

 输入为一组相似页面,输出为模板与抽取结果下面是其中一个页面的自动抽取结果,语义标注也是自动完成的 源网页地址:http://item.taobao.com/auction/item_detail-0db2-b0d5cc590d53cdbea63e8376926450e6.htm 抽取结果:  标题 93GS奢华独显本神舟优雅HP

2009-07-21 11:10:00 1255

原创 htmlparser 处理标签的一个bug

众所周知,Htmlparser本身有一些小bug,而且也有三年没更新了。所以现在基于java的信息抽取多转向NekoHtml。不过Htmlparser本身还是有不少优点,主要是扩展性强,其利用的设计模式值得学习。由于时间的关系,现在项目还是使用Htmlparser,以后有时间会对nekohtml进行研究。    今天遇到的bug来自于对的解析。假如一个网页的部分代码如下,那么HtmlParser是

2009-07-05 23:53:00 3945 4

原创 真·周工作总结 二

  1.工作总结本周编写了去除冗余标签与文本节点和类树编辑距离算法。但是通过阅读HTMLParser的文档和源码发现,之前没有很好的利用HTMLParser自身的特点(如,HTMLParser对DOM树的节点提供了visitor模式的基本实现),以至于代码比较冗长、难看。下周考虑重写这些代码。本周遇到的最大困难是文献[1]提出的模板生成算法的实现,在这个问题上卡了好几天。这

2009-06-29 00:27:00 994 1

原创 周工作总结 二

这两天没什么实质进展。主要是阅读了HtmlParser的文档和部分源码,加深了理解。写了两个方法,用于将一篇文档中的标签和标签除去,等待进一步分析。之前脑子一直很乱,原因是需求没有定好。基于分析html结构的信息抽取的抽取结果是什么?去噪页面?新闻正文?列表数据记录?数据项?之前看过的几篇论文任务目标各不相同,以至于让我对自己要实现的内容很迷茫。今天又把那几篇文章重点看了一下,思路基本确定了,就是

2009-06-24 17:46:00 662

原创 周工作总结 一

1概述本周主要是阅读了一些英文文献,加深对信息抽取工作的理解。在查阅的数十篇中文文献中,除了之前作为参考的一篇会议论文(经仔细推敲其算法很不严谨),比较接近我的任务目标同时叙述详尽的就只有文献[1],其主要内容是以树编辑距离算法为基础,进行网页聚类,模板抽取,数据提取的工作。我在刚开始阅读[1]时理解起来比较困难,同时对其算法的优劣性缺乏认识,之后仔细阅读了一些相关的英文论文,思路才逐渐明朗。

2009-06-21 22:52:00 1334

翻译 A Survey of Web Information Extraction Systems——web信息抽取系统研究现状(一)

这一篇是信息抽取领域2006年比较权威的综述。其实本来翻译了2002年的一篇综述,那个字数比较少,不过一时蛋疼,把这个也搞了算了。本人中文英文都很烂,这个基本上是google自动翻译的水准,为了造福与我双语一样烂的后人放在这里。有离谱的地方请“自主规制”。原文全文共18页,大概80000印刷符号,今天半夜翻译了2500汉字。错误的地方请指出,转载请注明出处,谢谢。 

2009-05-30 04:47:00 2451

Web信息自动/半自动抽取系统——演示版

Web信息自动/半自动抽取系统 build 091010 基于SimpleTreeMatching算法 实现网页自动分类,自动抽取模板(附带模板编辑器),自动标注语义(仅针对部分格式化良好的页面),自动抽取数据. 包中附带了演示用的网页集. 使用Java6+SWT(JFace)+htmlparser+dom4j开发,自带精简版Jre6. 本科毕业设计内容,仅用于演示算法,有问题可以给我留言。

2009-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除