自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (1)
  • 收藏
  • 关注

原创 小问题记录

启动resin时设置jdk编码格式,保证编码与预期一致,linux系统编码不顶用-Dfile.encoding="UTF-8"

2012-11-16 18:54:48 119

Nginx开发笔记

1、Nginx全部是纯C写的,如果编写的模块使用C++相关代码及函数,无法正确编译。2、过多的警告也会导致编译失败,可以手工修改configure生成的Makefile 去掉相关的检查3、在模块代码目录下的config文件中 CORE_LIBS="$CORE_LIBS -limage_seg -lmySegImg -lcxcore -lhighgui -lml -lcv -lcvaux -...

2010-11-28 20:47:51 132

Linux c 学习笔记

1、编译好的程序运行时找不到共享库文件(.so)文件问题原因默认搜寻共享库文件为系统根相关目录,或者使用export指定shell相关参数改变搜寻路径(export LD_LIBRARY_PATH=./)相关文章:http://blog.sina.com.cn/s/blog_690c46500100kxhd.html2、编译过程中在当前目录下查找不到需要的共享库文件libsegim...

2010-11-28 20:32:41 122

libsvm分类总结

以前对于libsvm的应用主要当它是个机器学习的工具,单纯的当一个现成的分类器使用,主要研究的是如何选择合适的分类特征和做分类训练数据,对于参数的基本了解,但很少改动由于官方网站上也推荐文本分类使用线性分类,当初做文本分类精力完全在特征和样本筛选上了,最近由于样本和特征的稀疏数据分类问题,又一次在各种核函数和参数上下功夫妄求提升分类准确率,在此总结记录以防以后又忘记了c g两个参数不用说了 这...

2010-09-27 19:05:13 305

专业词的抽取之通用度

词语的通用度所谓词语的通用度,是指词语在语言应用的各个领域里常用性的综合指标。0通用度兼顾到词语的分布率和频率两个方面,并且把两者有机地结合起来了。通用度概念中所说的“领域”,既可以指“空间”,也可以指“时间”,它既可指一个词在共时的语言应用中各领域里的通用程度,也可指一个词在历时的各个时期里的语言应用中的通用程度。现在我们假设把抽样统计的全部语料分成k组,每组语料的数量大致相等。某一个词...

2009-08-26 11:09:28 117

解压chunked

//处理Transfer-Encoding="chunked"的头的压缩数据 private static byte[] doUnchunk(byte[] writeData) { try { if ((writeData == null) || (writeData.length == 0)) { ...

2009-08-14 17:43:38 215

(下载)搜索引擎、自然语言理解相关的论文和电子书

以前的BLOG直接提供下载,现在都上传到网络硬盘了,这个速度还挺快的。以后陆续把之前的资源整理完了上传上去。就不另写帖子了,在这里置顶,不定期更新。 http://www.ziddu.com/download/5316375/计算机语言学-词法分析.rar.html http://www.ziddu.com/download/5316374/LuceneInAction.rar.html http...

2009-06-24 10:31:01 89

JAVA与C#通信过程中数据转换问题解决

由于JAVA语言的数据类型都是有符号类型,而C# C++一般数据类型都是分有符号和无符号,因此在通信过程中传递的Byte[]无法直接转换成C#需要的类型,以前倒是没注意这些细节,因为一般用一种语言编程,大都有内置的转换方法。跨语言环境的转换就的自己动手想办法了。1、java的Byte[]转换成c#的Int32 private int CoverJavaByteToInt(by...

2009-06-05 15:13:40 262

LibSvm.net调用方法及参数

libsvm是著名的SVM开源组件,目前有JAVA.C/C++,.NET 等多个版本,本人使用的是2.82libsvm命名空间下主要使用类:svm_model 为模型类,通过训练或加载训练好的模型文件获得svm_parameter 为参数类,主要为支持向量机设定参数,具体参数如下:svm_parameter.svm_typesvm类型:SVM设置类型(默认svm_parameter.C_SVC) ...

2009-04-15 12:16:28 228

SuffixTree 后缀树 c#实现

后缀树算是应用比较广泛的字符串处理算法了,压缩方面应用不少。这是我根据JAVA版本改写的版本。 

2009-04-15 12:13:35 124

LUCENE Field字段类型的意义

很多看LUCENE IN ACTION的人,开始写代码最容易遇到的问题就是Field.Keyword Field.UnIndexed Field.UnStored Field.Text……都没了 因为那LUCENE高版本提供的已经有很大区别Field类已经没那些玩意,最近问的人多了,我就把我常用的个简单的转译函数贴这给大家参考 FieldType是个自定义的emnu类型 替代原有的Field.Ke...

2009-04-15 12:08:32 175

同一进程内线程的CPU占用

public ArrayList ShowProcessThreadList(Process pID){ArrayList List = new ArrayList();ProcessThreadCollection tList;tList = pID.Threads;TimeSpan totalThreads = new TimeSpan();foreach (ProcessThread tID...

2009-04-09 09:28:31 194

BloomFilter算法的C#简化版,主要应用于URL消重

using System;using System.Collections;using System.Text;using NUnit.Framework;namespace OurAlgorithmCollections{ public class BloomFilter { /// <summary> /// BitArray用来替代内存块,在C/C++中可使用...

2009-04-09 09:27:07 103

大规模网页快速消重中网页特征的提取

刚在群里有人突然提起这个,也就顺便写写大家暂且看之,所以算法都需要考虑应用场景,而我自己设计的算法也仅满足我当时的业务应用而已,不可直接照抄,否则后果自负。1、一般处理的方法(1)最原始的使用文本相似度判别,相当准确,但是计算速度慢,提高的方法无非是先索引进行预处理,或者用SVD来降维减少矩阵运算时间(2)文本摘要为文本特征,进行特征重复判别(3)抽取文本关键词,构成比较小的文本向量做为特征进行判...

2009-04-09 09:22:05 142

Gecko(jrex)研究记录 JS AJAX页面内容抓取处理(2)

HTMLDocument doc=(HTMLDocument)navigation.getDocument();HTMLFormElement form=(HTMLFormElement)doc.getForms().item(0);form.submit();接上回的问题 关于元素事件的调用 以上为主要代码 与IE的webbrowser不同,它必须强转成对应的HTMLFormElement HT...

2009-04-09 09:21:04 131

Gecko(jrex)研究记录 JS AJAX页面内容抓取处理(1)

为了解决JS AJAX网站问题必须一个能够模拟用户操作行为来得到页面上数据的展示,在模拟用户行为上我们需要解决两件事情:1、得到渲染后的网页HTML代码 一般在浏览器中查看页面代码 是浏览器直接下载到的页面代码 在未经渲染前 对于JS AJAX输出的内容是无法得到的 这样我们得到的页面内容和直接走socket抓取回来无任何区别 还是无法得到需要的页面内容2、JS函数及页面元素事件的调用 这些很简单...

2009-04-09 09:20:26 253

目前主要的开源索引库列表

Egothorjava信息检索库,捷克人Leo Galambos为开发主理,应用在Capek主页: http://www.egothor.org/XapianC++开发的概率信息检索库,强大的功能,实现范例为 Omega现支持:Perl, Python, PHP, Java, TCL语言主页: http://www.xapian.org/MG-1.2.1Ref: Managing Gigabyte...

2009-04-09 09:19:15 412

原King's blog for Search Engine(blog.likeshow.net)

因为没免费服务器了,发现这里也能穿10M以下的附件,省钱了,以后转移到这重新开始写BLOG,非原创类的文章,我会在以后慢慢转帖回来,恢复原来BLOG的所有内容 我是KING 原来看BLOG欢迎重新回来 现在域名也转这里了 www.likeshow.net  blog.likeshow.net 可以用域名直接访问 以前那些没转过来的文章资料 可以通过搜索引擎的缓存访问...

2009-04-09 09:10:51 100

在DotLucene/Lucene.net中, 增加自己的中文分词Analyzer

一种非常简单,但是不是很优化的方法,继承Lucene.Net.Analysis.Analyzer,实现了Lucene.Net.Analysis.Analyzer,Lucene.Net.Analysis.Tokenizer,Lucene.Net.Analysis.TokenFilter的子类.参考了Lucene.Net.Analysis.Cn的实现,该项目采用对汉语进行一元分词.ChineseAna...

2009-04-09 09:07:54 101

正文抽取所需正则

工作中同事帮忙写的正则,主要被我用于网页正文提取  #region 相关正则表达式 /// <summary> /// 去掉所有html标签 /// </summary>  private static readonly Regex FilterAll = new Regex( @"(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?<...

2009-04-09 09:04:02 187

聊聊网页正文提取

从网页中提取的正文一般来说模板是最好最准确的方式,在专业术语中就是wrapper,对web归纳总结出提取规则创建包装器wrapper。但由于在大多数条件下制作模板是个很烦人的工作,而且如果抓取的种子站过多,人工难以满足需求。于是自动生成模板就成为一个折衷的替代方案,但实际上自动生成的模板还是需要模板编辑确定具体的对应项,以保证其正确性。如果从语法分析去考虑,这个部分不参与人工,目前还没看到有成功的...

2009-04-09 09:02:51 282

原创 信息论中的MI(互信息公式)

这个公式主要用于对词与词间关系的考察,可以把集合C内所有文档看成C1,C2,C3......如(C1(X)!=0) && (C1(Y)!=0)成立则结果C1(X,Y)=1,如结果不成立则反之C1(X,Y)=0,就最后C1(X,Y)+C2(X,Y)+C3(X,Y)+.....=C(X,Y) 以下是简化公式了目前简化公式:  &n...

2009-04-09 09:01:18 2252

原创 网页正文抽取演示(包含组件下载地址、原理说明文章地址)

演示地址如下:http://202.110.133.114/tsegment/webanalyer.aspx属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。可用于大家收集语料时候网页内容提取之用。如对此组件有兴趣,请直接邮件至我MSN信箱,我正考虑采用新算

2008-05-28 18:42:00 597 1

网页正文抽取演示

演示地址如下:http://202.110.133.114/tsegment/webanalyer.aspx属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。可用于大家收集语料时候网页内容提取之用。如对此组件有兴趣,请直接邮件...

2008-05-28 17:10:51 212

原创 由于CSDN的BLOG不能上传代码,我现在使用blog.likeshow.net

新的文章,代码下载,全部都在blog.likeshow.net 最近主要实现了BloomFilter算法 MI相对互信息公式计算 无词典分词 余旋定理聚类

2007-01-28 12:13:00 746

原创 url信息指纹计算改进

目前使用CRC32算法 还是有比较大可能性出现碰撞 因此在发现相同的指纹时 再次以原始信息进行比较 在确定原始信息不一致  发生碰撞的前提下 使用另一个固定新初始值对 原始信息进行CRC32计算 获得新的指纹 这个指纹再次比较看是否有相同的指纹 如无则做为指纹保存 如有则再选一固定新初始值对原始信息进行CRC32计算 获得新的指纹 基本三个不同初始值产生的指纹碰撞范围已经超出目前搜索引擎的索引页面

2006-12-05 11:03:00 1108

原创 spider demo设计思路(修改版本)

目前设计spider demo的思路:1以Queue建立工作队列,保存正在爬行的url地址2以Hashtable建立全局对象,保存已经爬行过的url地址3创建工作线程类,进行网页抓取和分析工作,在分析中发现新的url,检测没爬行过后,直接向工作队列投递4 主线程中直接建立固定多的并行线程,可避免线程的管理工作(如果实际商业化应用,还是采用ThreadPool进行线程管理,才能在减少线程开销的情

2006-11-02 14:32:00 1343

基于规则模型的通用网页正文提取组件

演示地址如下:http://202.110.133.114/tsegment/webanalyer.aspx<br><br>属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。<br><br>该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。<br><br>可用于大家收集语料时候网页内容提取之用。<br><br>如对此组件有兴趣,请直接邮件至我MSN信箱,我正考虑采用新算法完善并编写多个语言版本,在这里先统计下人数<br>看看有没开发商业版本的必要,对于商业版本将采用块识别标记的方式只对一段标签或一个DOM节点进行标识,而不负责提取正文,由用户自行控制过滤或提取哪些类型数据.<br>目前能想到可能会用到的标识类型:导航条 广告 正文 正文标题 相关文章 版权信息 评论 如大家还有其他想到的类型,请告之<br><br>无法处理导航页,提取正文时也不考虑图片类文章及文章中的配图。<br><br>该组件内部算法主要应用了规则模型抽取,所有规则基本使用正则表达式实现,具体正则可参考我的BLOG上《正文抽取正则》以及《聊聊网页正文抽取》内容。<br>http://www.likeshow.net/article.asp?id=60<br>http://www.likeshow.net/article.asp?id=55<br>

2008-05-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除