自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (19)
  • 收藏
  • 关注

原创 一些实用的语义角色标注(SRL)工具使用方法

不懂SRL的自己去扫盲吧,简言之就是predict-argument分析。找了一些工具,其中暂时调通两个1. swirlhttp://sourceforge.net/projects/swirl-parser/,可以从这下载,本工具里readme介绍较详细,主要是注意有多种输入格式。带有名实体标注的可能效果比较好,什么都没有的效果比较差一点,下面就简单说一下什么都没有的输入格式。格

2013-04-24 10:29:35 7186 15

原创 利用svmrank实现ensemble learning的方法研究

机器学习分类过程中,如果遇到多个分类器表现差不多,想综合各个分类器的优势时,可以考虑多分类器投票,即VOTING的方法,也可以考虑learning to rank的方法优选偏重于正确分类标签的预测得分组合。下面简单总结一下使用svmrank进行集成学习的方法。首先把数据分为训练集、验证集、测试集,然后都进行特征提取和量化训练集(training):原始数据,每一列都是特征,用来提取

2013-04-20 15:52:43 2199 5

转载 释放linux驻留内存方法

看过一些链接,记录一下。执行完许多指令或程序后,本来很大的系统内存就木有了,这时候需要手动释放。1. 查看cat /proc/sys/vm/drop_caches默认是02.执行sync把未写的系统缓存写入磁盘3.执行echo 3 > /proc/sys/vm/drop_caches好了,用free -m查查吧

2013-03-14 14:41:53 1048

原创 使用SRILM为大文件构建语言模型

文件:英文wikipedia article,预处理后大小11G系统:SUSE x64,128G内存任务:针对该数据集建立语言模型SRILM的安装和配置就不再赘述了,百度,52nlp,或者SRILM官网都很详细,根据自己机器来配置即可。贴个百度的吧http://hi.baidu.com/keyever/item/8fad8918b90b8e6b3f87ce87下面讲

2013-03-14 11:01:16 2010

原创 英文NLP工具包推荐

最近研究英文NLP,用到些许工具包,在此记录,免得遗忘。也希望前辈同僚们指点推荐。基本的流程是从surface开始,到浅层语义结束1. 词义词典wordnet,提供英文单词的词义、同义反义、词源等,安装配置详见http://blog.csdn.net/ilovewindseed/article/details/81476132. 语义组块分析(Chunk)CRFChun

2012-12-12 09:36:23 1378

原创 RST Annotation Tool

偶然间看到的一个段落级句间关系分析工具,英文的,先mark一下。地址http://www.isi.edu/licensed-sw/RSTTool/可以分析段落里面各个句子之间的关系,网站给出的示例如图:看起来不错,还没用过,先mark一下!还有一个据称是state-of-art的text level parser唤作HILDA parser。不过online demo暂时失效,

2012-11-24 21:37:08 1038 1

原创 linux版wordnet安装和使用[fc13]

wordnet3.0.tar.gz 使用的是conll评测提供的版本,地址如下:http://conll.cemantix.org/2011/download/WordNet-3.0.tar.gz楼主为了安装wn3.0在实验室的fedora13机器上,遇到了一些问题,网上资料也少,最后终于安装成功,也算费尽周折,希望在此提供有益信息,减少同仁们今后的麻烦!安装步骤:1.

2012-11-06 10:53:46 1956

原创 C++利用vector实现随机选N项

利用stl中的vector实现随机选择N个数字里的N项,主要使用中的random_shuffle函数,函数格式是random_shuffle(vector.begin(), vector.end())。举例:srand(unsigned(time(NULL)));vector randomVec;for(int i = 0; i < 100; ++i){ rando

2012-11-05 18:49:04 8316

原创 stanford parser使用参数

上次使用stanford parser解析conll shared task中英文句子的时候,就遇到了句子被其中的分隔符“.”分成两句的情况,上次没有解决。现在回头做实验,才查到可以指定参数,告诉parser按照每一行来切分句子。官网的FAQ上原句是If you want to give the parser one sentence per line, include the option

2012-11-04 16:03:39 966

机器学习经典书籍Machine learning - A Probabilistic Perspective

Machine learning - A Probabilistic Perspective,Murphy著,内容较PRML新,包括深度学习相关知识,英文原版

2013-11-15

条件随机场学习课件

非常通俗易懂的CRF入门资料 包括HMM、MEMM、CRF以及编码解码等算法,有诸多实例

2013-10-30

统计学习方法--李航

李航的蓝色封面经典统计学习方法课本,里面包括统计学习概论、感知器、EM、CRF等统计学习基础理论

2013-10-16

很好的维基百科介绍和研究综述

Mining meaning from Wikipedia Olena Medelyan, DavidMilne,CatherineLegg,IanH.Witten 著作 发在09年Int. J.Human-ComputerStudies期刊上 对维基百科的功能介绍和研究方向比较全面的一个综述

2013-09-03

Tom Mitchell的机器学习(中文清晰版)

机器学习的经典书籍,卡内基梅隆的Tom Mitchell著作,此版本为中文重制版,比影印版清晰许多,包含公式,不过不包含图形,可以配合原版图形阅读。

2013-08-07

svmrank和ranklib中提到的example3

svmrank和ranklib中提到的example3,包括train.dat和test.dat,国内很多地方可能下不到。原链接http://download.joachims.org/svm_light/examples/example3.tar.gz 如果能从原网页下最好,尊重原创,下不到就在这下咯,LOL。

2013-03-28

Shell脚本学习指南

非常好的shellscript入门资料,语言通俗易懂

2012-12-12

LaTeX入门与提高

[LATEX入门与提高],陈志杰,语言通俗简约,适合入门

2012-12-12

计算语言学课本

很好的计算语言学入门书籍 清华刘颖老师主编

2012-12-12

Pattern Recognition And Machine Learning

Bishop大牛的Pattern Recognition And Machine Learning,原文

2012-12-12

svm扫盲文档之九

网上Jasper的博客 写的通俗易懂 整理成pdf 方便大家入门使用

2012-10-24

svm扫盲文档之八

网上Jasper的博客 写的通俗易懂 整理成pdf 方便大家入门使用

2012-10-24

svm扫盲文档之七

网上Jasper的博客 写的通俗易懂 整理成pdf 方便大家入门使用

2012-10-24

svm扫盲文档之六

网上Jasper的博客 写的通俗易懂 整理成pdf 方便大家入门使用

2012-10-24

svm扫盲文档之五

网上Jasper的博客 写的通俗易懂 整理成pdf 方便大家入门使用

2012-10-24

SVM扫盲文档之四

网上Jasper的博客 写的通俗易懂 整理成pdf 方便大家入门使用

2012-10-24

SVM扫盲文档

网上Jasper的博客 写的通俗易懂 整理成pdf 方便大家入门使用

2012-10-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除