自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

++

  • 博客(58)
  • 资源 (1)
  • 收藏
  • 关注

原创 paper read - 02- 2018 - Dual Language Models for Code Switched Speech Recognition

Paper:Dual Language Models for Code Switched Speech Recognition,2018,Interspeech这篇文章的核心概念是下面这张图:以前的CS任务,一般是:1检查语种切换点,什么语种就用什么语种的LM;2 建立CS的语料,直接训练。 本文的核心是,如果有CS训练语料,但语料不多,不直接求 P(W2L2|W1L1),而是先求,P(...

2019-02-26 15:50:14 179

原创 paper read - 01- 2004 - 语码转换之结构研究述评

Paper:语码转换之结构研究述评,王瑾、黄国文,2004,外国语言文学 出现CS的原因:真的没有这个词的翻译;为了彰显自己的地位;省事;强调 CS的现象:1 要选择Base语言2 嵌入式(词嵌入);轮换式(小句交替出现);词Mix(恋爱 ing);插旗式(强调“”)3 名词替换(最常见);省略介词(变成及物动词,in at4 依赖Base语言的词法;Mix后独立创新语法...

2019-02-13 13:44:33 187

原创 Twitter-LDA (只是为了mark)

只是为了mark样例code用(java): https://github.com/minghui/Twitter-LDA stop word 很重要,把长尾的词加进来 alpha_g参数一般=50/ k, 其中k是你选择的topic数

2018-02-06 18:51:08 2134 1

原创 Tensorflow - 安装

我的机器Ubuntu 16.04参考:http://ju.outofmemory.cn/entry/270769   http://ju.outofmemory.cn/entry/328609   查看机器状态$ lspci | grep -i nvidia$ sudo dpkg --list | grep nvidia-*$ uname -m && c

2018-02-06 18:36:29 251

原创 Kaldi cvte test

CVTE Kaldi Test

2017-07-04 15:54:04 2598 3

原创 重新出发

我要开始学新的东西了,加油

2017-07-04 15:38:44 228

原创 [笔记]网易云课堂-旅游英语-2-酒店和家庭寄宿

Hotel&Home StayHotelCheck-inHotel ServiceCheck-outHomeStayUseful expressions

2014-07-10 09:52:41 860

原创 安装boost_1_55_0

一、安装       在目录下找到 bootstrap.bat 批处理文件,运行生成bjam.exe和b2.exe。       运行bjam.exe文件(需要较长时间)。生成stage文件夹内有lib文件夹,即静态库文件。二、使用配置(链接静态库)      在VS中,工程属性->配置属性->VC++ Directories,修改如下:      1、包含目录(Inclu

2014-03-13 11:15:21 2114

原创 perl 强制输出% 百分号

#我的问题是,原文件中含有%,perl处理后,需要将源文件的百分号原样输出#如果不做处理,% b, % n,% t这些都会被认为成格式符或功能性字符#简单处理如下while (){chomp;~s/\%/\%\%/g;$line=$_;printf OUT "$line\n";}

2013-12-26 18:24:41 3741

原创 SIGHAN评测回顾-2-(2006-2010)

这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述,不详细不精确,个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。表 1-3  2006年Bakeoff评测结果Table 1-3 Result of Bakeoff 2006任务最高分队伍最高分第一作者

2013-06-21 10:53:28 4665 1

原创 SIGHAN评测回顾-1-(2003-2005)

这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述,不详细不精确,个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。        国际中文自动分词评测(简称SIGHAN[1]评测)采用多个由不同机构提供的数据集合进行评测[2]。每个机构提供的数据集都包含训练语料、测试语料和标准答案,参评者可以自由选择一种或者多种参

2013-06-21 10:45:24 5591 2

原创 服务器运行内存问题

perl程序在服务器上跑,只要使用内存超过2G,就报错。原因:32位的机器为了保护系统,在内存使用超过2G的时候会报错。64为机器则可以使用。服务器是64位,内存16G。但由于使用的perl编译器是32位的,所以限制程序只能使用2G内存解决方法:换掉原先的perl编译器,从官网下载64位编译器,成功运行。

2013-03-05 17:55:41 1031

原创 perl split 中文 乱码问题

用split分割句子中的中文字符,本地两台机器完全没有问题,服务器死活都是乱码(这台机器默认编码的确是gbk)后来做个尝试,句子decode,如果需要分割符,分隔符也要decode,输出的时候要encode,就正常了。中间状态时乱码,那是perl自己认识的字节流,始、终状态是字符串。use strict;use Encode;#输入文件是GBK编码open(In,"wh

2013-03-05 15:11:57 2068

原创 笔记-2010-2011 孙薇薇

语料宾州树库CTB1:2010Word Based and Character-Based Word Segmentation Models: Comparison and Combination就是简单的说明了一下字、词单位的区别。然后实验对比了一下。分词方法就是投票,找M个分词结果,多的胜出。投票boosting最高提高0.4个点2:2011A Stac

2013-01-05 13:37:49 605

原创 viterbi 中文分词-超简单版

use encoding "gbk";#load score哈希,这个Score是自己定的open(Inscore, "<$ARGV[0]") or die "无法打开信息文件。\n";%score=();while(){ chomp($_); if($_ eq "") { next; } @pair=(); @pair=split("\t",$_); $score{

2012-11-28 16:23:24 866

原创 基础知识2

1 线性表、链表的区别顺序表的主要优点体现在没有使用指针,节省存储空间,而且线性表元素的读访问非常简洁便利。链表的主要优点则体现在无需事先确定线性表的长度,可以根据需要动态申请,且允许线性表的长度有很大变化,能够适应在线性表中经常插入、删除内部元素的情况。需要根据具体的应用来选择采用何种存储方式的线性表。当线性表经常要进行插入、删除元素的操作时,不宜使用顺序表,另外,当无法事先确定

2012-11-27 16:17:24 383

原创 【小工具】CRF++格式转所有特征显示

#———————————解码————————————#转移概率共36项,输入格式如下#-3.0613860150847194#6.3296570233861047#-1.0675635747046173#4.6421254962811851#-1.5142773207880604#……# 0 1 2 3 4 5# B B2 B3 E M Sopen(Intrans, "<$

2012-11-26 20:25:22 1556

原创 语言模型使用

最近同门在处理srilm,问我大规模怎么弄,真惭愧好久没用了这是以前写的#inputfile切成小文件放到outputfiledir目录下,文件名的前缀outputfie_prefixsplit -l 100 inputfile outputfiledir /outputfie_prefix#进入outputfiedir文件cd outfiledir#生成文件列表,file

2012-11-26 10:35:42 1208

原创 基础知识1

1 static 在C、C++中的作用    对变量: a 静态区域,初始化为0; b 在程序刚开始运行时就完成出初始化,也是唯一一次初始化。控制变量的可见范围。保持变量内容持久。    对变量、函数(主要):这是与全局变量的差别,“隐藏”,不同文件中,使用相同函数名,不会发生冲突;例如,A文件中函数名加了static,则B文件看不到。2 sizeof strlen区别    举例

2012-11-26 09:01:14 372

原创 CRF++模型可视化输出的格式

我没有看源代码,但是今天分析的时候觉得格式应该是下面这样的Maxid=数,这个数是特征有多少个B,B2,B3,E,M,S是Tag的顺序U00,U01,……,B 是模板的顺序ID  模板号:特征26016 U00:细这个块是说明了每个特征在下面参数数组中的ID,ID的起始地址是0;每个特征在每个Tag上的拉姆达2.7613490877201383这一块就是参数数组

2012-11-08 18:07:38 1029

原创 笔记-2004-2007-A Hybrid Approach to Word Segmentation and POS Tagging

2004-Chinese and Japanese Word Segmentation Using Word-Level and Character-Level Information作者:Tetsuji Nakagawa出处:Proceedings of COLING 2004,pages 466-4722007-A Hybrid Approach to Word Segmentat

2012-11-07 13:33:29 797

原创 笔记-2003-A Maximum Entropy Chinese Character-Based Parser

A Maximum Entropy Chinese Character-Based Parser作者:xiaoqiang Luo单位:IBM T.J. Watson Research Center 出处:Proceedings of the 2003 conference on Emprical Methods in Natural Language Processing ,pp.

2012-11-06 18:12:27 610

原创 笔记-2004-Adaptive Chinese Word Segmentation

Adaptive Chinese Word Segmentation作者:Jianfeng Gao,Andi Wu,Mu Li,Chang-Ning Huang,Hongqiao Li,Xinsong Xia,Haowei Qin单位:Microsoft Research出处:ACL '04 Proceedings of the 42nd Annual Meeting on Ass

2012-11-06 18:06:59 580

原创 笔记-2003-Chinese Word Segmentation as Character Tagging

Chinese Word Segmentation as Character Tagging不知道这篇是不是上一篇的扩写,发表在不同杂志上作者:Nianwen Xue单位:Inst. for Research in Cognitive Science出处:Computational Linguistics and Chinese Language Processing Vol.

2012-11-06 17:54:31 1359 1

原创 笔记-2003-Chinese Word Segmentation as LMR Tagging

Chinese Word Segmentation as LMR Tagging作者:Nianwen Xue,LibinShen单位:Inst. for Research in Cognitive Science;UniversityofPennsylvania出处:Proceedings of the Second SIGHAN Workshop on Chinese Languag

2012-11-06 17:50:40 881

原创 笔记-2002-Combining Classifiers for Chinese Word Segmentation

Combining Classifiers for Chinese Word Segmentation作者:Nianwen Xue,Susan P. Converse单位:Institute for Research in Cognitive Science ;University of Pennsylvania 出处:Proceeding SIGHAN '02 Proceedin

2012-11-06 17:46:46 909

原创 笔记-1999-消解中文三字长交集型分词歧义的算法

消解中文三字长交集型分词歧义的算法出处:清华大学学报(自然科学版)1999年第5期单位:清华大学作者:孙茂松三字,交搭歧义,词性,词概率,组合概率,分类词表概率主要内容:根据对一个1亿字汉语语料库的观察, 三字长交集型分词歧义就静态个数而言占全部交集型分词歧义的33.29%, 动态覆盖率更占全部交集型分词歧义的49.76%。1 词概率+ 词性Bigram法,

2012-11-06 17:38:07 563

原创 笔记-2007-基于有效子串标注的中文分词

基于有效子串标注的中文分词作者:赵海,接春雨单位:香港城市大学-出处:中文信息学报,2007年,21卷,5期,8-13页本文主要是确定什么做子串;特征6Tag:B,B2,B3,M,E,S;仅CRF结果评价数据:Sighan bakeoff 2005;CityU,MSRA,最好结果0.952,0.974。步骤:1 从训练语料中得到词典,高于某个频率的进入子串词典;

2012-11-06 17:13:11 405

原创 笔记-2006-Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation

Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation作者: Ruiqiang Zhang,Genichiro Kikui ,Eiichiro SumitaNational Institute of Information and Communications Technology(国

2012-11-06 16:52:25 698

原创 10月小事

长辈   早高峰的公交车,一个字“挤”。还好有乐观的公交司机大叔“您要是着急就努力往上挤啊,不着急就等下一辆”。   早高峰的三环,也就一个字“堵”。   不知道挤了多久,又堵了。听见前面司机在跟某人喊话,好像类似“师傅,您挪一下,大家就都过去了”。后来知道前面可能有车刮蹭了,两方正谁也不让谁呢。于是一整车的人就堵在三环上,各种抱怨。司机师傅极力跟前面的车沟通,但势单力薄。

2012-10-24 13:50:54 1256

原创 新动向--网址链接转载等

机器学习新动向:从人机交互中学习  (李航博士)http://blog.sina.com.cn/s/blog_7ad48fee01016d25.html  (12.10.21读)主要内容有三:机器学习需要很多数据;数据来源可由用户无意识添加、付费添加、游戏添加;要有效的利用这些数据、设计更合理的获取途径。公开课信息http://courseminer.com/h

2012-10-21 19:06:32 497

原创 笔记-2004-基于无指导学习策略的无词表条件下的汉语自动分词

基于无指导学习策略的无词表条件下的汉语自动分词孙茂松,肖明,邹嘉彦清华大学、香港城市大学2004年6月计算机学报互信息、t-测试差、线性叠加、波峰波谷由于这个时候还没有SIGHAN2005,所以不好评说这个的效果,但是思想很好互信息,用于检查两个字的结合紧密程度,注意,互信息是二元的,多于二元的都不行。t-测试差的作用也是这样,但是公式不同,都是越大,结合越紧密

2012-10-21 18:43:23 483

原创 笔记-2012-Unsupervized Word Segmentation the case for Mandarin Chinese

Unsupervized Word Segmentation the case for Mandarin ChinesePierre Magistry ,Benoit Sagot法国的,2012在ACL上发表左右熵,差值,归一化这篇是针对北理工那篇文章写的,很佩服啊,人家法国人做中文分词,还发在顶级会议,哎。ESA那篇发在CL上,号称是目前无监督学习最好的方法了。这篇论文的

2012-10-21 18:28:10 1258 2

原创 笔记-2011-A New Unsupervised Approach to Word Segmentation

A New Unsupervised Approach to Word SegmenationHanshi Wang, Jian Zhu, Shiping Tang, XiaoZhong Fan北京理工大学,2011 发在CL上长度、频次、左右熵:无监督~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

2012-10-21 18:08:11 699

原创 笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~

An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified FrameworkHai Zhao Chunyu Kit City University of Hong Kong2008年这篇文章是最之前无监督分词方法的一个比较主要比

2012-10-21 16:19:23 601

原创 fwscanf在vc6与2005上的差别

按固定的格式读入数据函数int fscanf( FILE *stream, const char *format [, argument ]... )int fwscanf( FILE *stream, const wchar_t *format [, argument ]... )参数:stream 文件指针format 按照一定的格式argument 可选参数列表返回值:f

2012-08-27 21:55:20 562

原创 形式语义学-chapter 3 Attribute Grammars

ATTRIBUTE GRAMMARS 属性文法前言:1968年被Donald Knuth 提出,当时的目的是为了对上下文无关的语义进行形式化。现在多用于类似:检查声明,检查变量or函数是否与声明一致,操作语义等。静态语义形式化描述最常采用的是属性文法(attributegrammars),它实际上是为产生式中的符号扩充属性。因此,也可以认为属性文法是对上下文无关文法的扩充,二者结合

2012-08-17 10:55:06 593

原创 笔记-2012-Fast Online Training with Frequency-Adaptive Learning Rates for CWS and New

Fast Online Training with Frequency-Adaptive Learning Rates for Chinese Word Segmentation and New Word Detection作者:香港理工大学,北京大学,Xu Sun , Houfeng Wang, Wenjie Li出处:Proceedings of the 50th Annual Mee

2012-08-12 21:17:35 1046

原创 笔记-2009-An Error-Driven Word-Character Hybrid Model for Joint CWS and POS Tagging

An Error-Driven Word-Character Hybrid Model for Joint Chinese Word Segmentation and POS Tagging作者:神户大学,Canasai Kruengkrai, and Kiyotaka Uchimoto, and Jun’ichi Kazama, Yiou Wang, and Kentaro Torisawa

2012-08-12 16:47:35 1018

原创 常用被引用文献 MIRA CRF

MIRA (Margin Infused Relaxed Algorithm )一种超保守在线算法, 在分类、排序、预测等应用领域取得不错成绩理论Koby Crammer.2004. Online Learning of Com-plex Categorial Problems. Hebrew Univeristy of Jerusalem, PhD Thesis2005.

2012-08-12 11:54:36 3440 1

形式语义学(英文版)

老师指定的形式语义学参考书,英文版的 书:Formal Syntax and Semantics of Programming Languages 作者:Kenneth Slonneger University of Iowa;Barry L. Kurtz Louisiana Tech University

2012-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除