- 博客(27)
- 资源 (1)
- 收藏
- 关注
Nginx开发笔记
1、Nginx全部是纯C写的,如果编写的模块使用C++相关代码及函数,无法正确编译。2、过多的警告也会导致编译失败,可以手工修改configure生成的Makefile 去掉相关的检查3、在模块代码目录下的config文件中 CORE_LIBS="$CORE_LIBS -limage_seg -lmySegImg -lcxcore -lhighgui -lml -lcv -lcvaux -...
2010-11-28 20:47:51 132
Linux c 学习笔记
1、编译好的程序运行时找不到共享库文件(.so)文件问题原因默认搜寻共享库文件为系统根相关目录,或者使用export指定shell相关参数改变搜寻路径(export LD_LIBRARY_PATH=./)相关文章:http://blog.sina.com.cn/s/blog_690c46500100kxhd.html2、编译过程中在当前目录下查找不到需要的共享库文件libsegim...
2010-11-28 20:32:41 122
libsvm分类总结
以前对于libsvm的应用主要当它是个机器学习的工具,单纯的当一个现成的分类器使用,主要研究的是如何选择合适的分类特征和做分类训练数据,对于参数的基本了解,但很少改动由于官方网站上也推荐文本分类使用线性分类,当初做文本分类精力完全在特征和样本筛选上了,最近由于样本和特征的稀疏数据分类问题,又一次在各种核函数和参数上下功夫妄求提升分类准确率,在此总结记录以防以后又忘记了c g两个参数不用说了 这...
2010-09-27 19:05:13 305
专业词的抽取之通用度
词语的通用度所谓词语的通用度,是指词语在语言应用的各个领域里常用性的综合指标。0通用度兼顾到词语的分布率和频率两个方面,并且把两者有机地结合起来了。通用度概念中所说的“领域”,既可以指“空间”,也可以指“时间”,它既可指一个词在共时的语言应用中各领域里的通用程度,也可指一个词在历时的各个时期里的语言应用中的通用程度。现在我们假设把抽样统计的全部语料分成k组,每组语料的数量大致相等。某一个词...
2009-08-26 11:09:28 117
解压chunked
//处理Transfer-Encoding="chunked"的头的压缩数据 private static byte[] doUnchunk(byte[] writeData) { try { if ((writeData == null) || (writeData.length == 0)) { ...
2009-08-14 17:43:38 215
(下载)搜索引擎、自然语言理解相关的论文和电子书
以前的BLOG直接提供下载,现在都上传到网络硬盘了,这个速度还挺快的。以后陆续把之前的资源整理完了上传上去。就不另写帖子了,在这里置顶,不定期更新。 http://www.ziddu.com/download/5316375/计算机语言学-词法分析.rar.html http://www.ziddu.com/download/5316374/LuceneInAction.rar.html http...
2009-06-24 10:31:01 89
JAVA与C#通信过程中数据转换问题解决
由于JAVA语言的数据类型都是有符号类型,而C# C++一般数据类型都是分有符号和无符号,因此在通信过程中传递的Byte[]无法直接转换成C#需要的类型,以前倒是没注意这些细节,因为一般用一种语言编程,大都有内置的转换方法。跨语言环境的转换就的自己动手想办法了。1、java的Byte[]转换成c#的Int32 private int CoverJavaByteToInt(by...
2009-06-05 15:13:40 262
LibSvm.net调用方法及参数
libsvm是著名的SVM开源组件,目前有JAVA.C/C++,.NET 等多个版本,本人使用的是2.82libsvm命名空间下主要使用类:svm_model 为模型类,通过训练或加载训练好的模型文件获得svm_parameter 为参数类,主要为支持向量机设定参数,具体参数如下:svm_parameter.svm_typesvm类型:SVM设置类型(默认svm_parameter.C_SVC) ...
2009-04-15 12:16:28 228
LUCENE Field字段类型的意义
很多看LUCENE IN ACTION的人,开始写代码最容易遇到的问题就是Field.Keyword Field.UnIndexed Field.UnStored Field.Text……都没了 因为那LUCENE高版本提供的已经有很大区别Field类已经没那些玩意,最近问的人多了,我就把我常用的个简单的转译函数贴这给大家参考 FieldType是个自定义的emnu类型 替代原有的Field.Ke...
2009-04-15 12:08:32 175
同一进程内线程的CPU占用
public ArrayList ShowProcessThreadList(Process pID){ArrayList List = new ArrayList();ProcessThreadCollection tList;tList = pID.Threads;TimeSpan totalThreads = new TimeSpan();foreach (ProcessThread tID...
2009-04-09 09:28:31 194
BloomFilter算法的C#简化版,主要应用于URL消重
using System;using System.Collections;using System.Text;using NUnit.Framework;namespace OurAlgorithmCollections{ public class BloomFilter { /// <summary> /// BitArray用来替代内存块,在C/C++中可使用...
2009-04-09 09:27:07 103
大规模网页快速消重中网页特征的提取
刚在群里有人突然提起这个,也就顺便写写大家暂且看之,所以算法都需要考虑应用场景,而我自己设计的算法也仅满足我当时的业务应用而已,不可直接照抄,否则后果自负。1、一般处理的方法(1)最原始的使用文本相似度判别,相当准确,但是计算速度慢,提高的方法无非是先索引进行预处理,或者用SVD来降维减少矩阵运算时间(2)文本摘要为文本特征,进行特征重复判别(3)抽取文本关键词,构成比较小的文本向量做为特征进行判...
2009-04-09 09:22:05 142
Gecko(jrex)研究记录 JS AJAX页面内容抓取处理(2)
HTMLDocument doc=(HTMLDocument)navigation.getDocument();HTMLFormElement form=(HTMLFormElement)doc.getForms().item(0);form.submit();接上回的问题 关于元素事件的调用 以上为主要代码 与IE的webbrowser不同,它必须强转成对应的HTMLFormElement HT...
2009-04-09 09:21:04 131
Gecko(jrex)研究记录 JS AJAX页面内容抓取处理(1)
为了解决JS AJAX网站问题必须一个能够模拟用户操作行为来得到页面上数据的展示,在模拟用户行为上我们需要解决两件事情:1、得到渲染后的网页HTML代码 一般在浏览器中查看页面代码 是浏览器直接下载到的页面代码 在未经渲染前 对于JS AJAX输出的内容是无法得到的 这样我们得到的页面内容和直接走socket抓取回来无任何区别 还是无法得到需要的页面内容2、JS函数及页面元素事件的调用 这些很简单...
2009-04-09 09:20:26 253
目前主要的开源索引库列表
Egothorjava信息检索库,捷克人Leo Galambos为开发主理,应用在Capek主页: http://www.egothor.org/XapianC++开发的概率信息检索库,强大的功能,实现范例为 Omega现支持:Perl, Python, PHP, Java, TCL语言主页: http://www.xapian.org/MG-1.2.1Ref: Managing Gigabyte...
2009-04-09 09:19:15 412
原King's blog for Search Engine(blog.likeshow.net)
因为没免费服务器了,发现这里也能穿10M以下的附件,省钱了,以后转移到这重新开始写BLOG,非原创类的文章,我会在以后慢慢转帖回来,恢复原来BLOG的所有内容 我是KING 原来看BLOG欢迎重新回来 现在域名也转这里了 www.likeshow.net blog.likeshow.net 可以用域名直接访问 以前那些没转过来的文章资料 可以通过搜索引擎的缓存访问...
2009-04-09 09:10:51 100
在DotLucene/Lucene.net中, 增加自己的中文分词Analyzer
一种非常简单,但是不是很优化的方法,继承Lucene.Net.Analysis.Analyzer,实现了Lucene.Net.Analysis.Analyzer,Lucene.Net.Analysis.Tokenizer,Lucene.Net.Analysis.TokenFilter的子类.参考了Lucene.Net.Analysis.Cn的实现,该项目采用对汉语进行一元分词.ChineseAna...
2009-04-09 09:07:54 101
正文抽取所需正则
工作中同事帮忙写的正则,主要被我用于网页正文提取 #region 相关正则表达式 /// <summary> /// 去掉所有html标签 /// </summary> private static readonly Regex FilterAll = new Regex( @"(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?<...
2009-04-09 09:04:02 187
聊聊网页正文提取
从网页中提取的正文一般来说模板是最好最准确的方式,在专业术语中就是wrapper,对web归纳总结出提取规则创建包装器wrapper。但由于在大多数条件下制作模板是个很烦人的工作,而且如果抓取的种子站过多,人工难以满足需求。于是自动生成模板就成为一个折衷的替代方案,但实际上自动生成的模板还是需要模板编辑确定具体的对应项,以保证其正确性。如果从语法分析去考虑,这个部分不参与人工,目前还没看到有成功的...
2009-04-09 09:02:51 282
原创 信息论中的MI(互信息公式)
这个公式主要用于对词与词间关系的考察,可以把集合C内所有文档看成C1,C2,C3......如(C1(X)!=0) && (C1(Y)!=0)成立则结果C1(X,Y)=1,如结果不成立则反之C1(X,Y)=0,就最后C1(X,Y)+C2(X,Y)+C3(X,Y)+.....=C(X,Y) 以下是简化公式了目前简化公式: &n...
2009-04-09 09:01:18 2252
原创 网页正文抽取演示(包含组件下载地址、原理说明文章地址)
演示地址如下:http://202.110.133.114/tsegment/webanalyer.aspx属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。可用于大家收集语料时候网页内容提取之用。如对此组件有兴趣,请直接邮件至我MSN信箱,我正考虑采用新算
2008-05-28 18:42:00 597 1
网页正文抽取演示
演示地址如下:http://202.110.133.114/tsegment/webanalyer.aspx属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。可用于大家收集语料时候网页内容提取之用。如对此组件有兴趣,请直接邮件...
2008-05-28 17:10:51 212
原创 由于CSDN的BLOG不能上传代码,我现在使用blog.likeshow.net
新的文章,代码下载,全部都在blog.likeshow.net 最近主要实现了BloomFilter算法 MI相对互信息公式计算 无词典分词 余旋定理聚类
2007-01-28 12:13:00 746
原创 url信息指纹计算改进
目前使用CRC32算法 还是有比较大可能性出现碰撞 因此在发现相同的指纹时 再次以原始信息进行比较 在确定原始信息不一致 发生碰撞的前提下 使用另一个固定新初始值对 原始信息进行CRC32计算 获得新的指纹 这个指纹再次比较看是否有相同的指纹 如无则做为指纹保存 如有则再选一固定新初始值对原始信息进行CRC32计算 获得新的指纹 基本三个不同初始值产生的指纹碰撞范围已经超出目前搜索引擎的索引页面
2006-12-05 11:03:00 1108
原创 spider demo设计思路(修改版本)
目前设计spider demo的思路:1以Queue建立工作队列,保存正在爬行的url地址2以Hashtable建立全局对象,保存已经爬行过的url地址3创建工作线程类,进行网页抓取和分析工作,在分析中发现新的url,检测没爬行过后,直接向工作队列投递4 主线程中直接建立固定多的并行线程,可避免线程的管理工作(如果实际商业化应用,还是采用ThreadPool进行线程管理,才能在减少线程开销的情
2006-11-02 14:32:00 1343
基于规则模型的通用网页正文提取组件
2008-05-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人