自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 文章标题

论文笔记:层次化注意力机制Paper: Hierarchical Attention Networks for Document Classification (NAACL 2016)今天介绍这篇文章是来自于cmu的zichao yang的paper,其实这篇paper在我还在msra实习的时候就已经读过了,只是最近跟几个搞speech的师兄师姐聊了一下,发现他们都在设法将注意力机制引入到

2016-10-29 00:59:17 169

原创 SemEval-2014 论文笔记(1)

title:NRC-Canada-2014: Detecting Aspects and Sentiment in Customer Reviews最近在研究aspect-based sentiment analysis (ABSA), 然后先从SemEval国际竞赛中排名比较靠前的系统中学习一下经验。今天要介绍的是加拿大国家研究局(NRC-Canada)的研究员公布的系统。介绍系统之前,我们先来了

2016-10-17 21:15:38 4191

原创 Coreference Resolution (共指消解)

前言本科时候主要搞的是利用深度学习来做文本分类和情感分析,phd期间的老板貌似对deep learning和一些相关的应用不是太感兴趣,于是。。 我就跳进了coreference resolution这个坑 (此处省略1万字)定义相信很多人都没有听说过这个概念,所以先在这里简单的介绍一下基本的定义:Coreference resolution (共指解析)是自然

2016-10-14 00:04:09 4856

转载 Deep Learning及NLP(自然语言处理)杂谈--第一部分

欢迎转载,转载请注明出处:http://blog.csdn.net/neighborhoodguo/article/details/47909813本杂谈分为三个部分,此文为第一部分。第一部分第二部分第三部分听完斯坦福大学的CS224d公开课真是受益匪浅,课程安排紧凑而且内容翔实由浅入深,使我不仅对各种神经网络模型

2016-01-04 17:55:05 551

转载 支持向量机通俗导论(理解SVM的三层境界)

支持向量机通俗导论(理解SVM的三层境界)作者:July ;致谢:pluskid、白石、JerryLead。出处:结构之法算法之道blog。前言    动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲

2015-10-10 10:09:11 689

转载 中文分词 及发展现状(总结的不错)

中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。

2015-09-28 09:05:13 4925

原创 文本相似度计算之tf-idf

最基本的文本相似度计算是在向量空间模型(VSM)下,以文档中的词作为特征进行计算:先来说一下VSM思想很简单:假设我现在的文档集中有3篇文档:

2015-07-20 20:59:17 2770

原创 多类分类(Multi-label classification)性能评价之宏平均(macro-average)与微平均(micro-average)

通常,我们在评价classifier的性能时使用的是accuracy考虑在多类分类的背景下accuracy = (分类正确的样本个数) / (分类的所有样本个数)这样做其实看上去也挺不错的,不过可能会出现一个很严重的问题:例如某一个不透明的袋子里面装了1000台手机,其中有600台iphone6, 300台galaxy s6, 50台华为mate7,50台mx4(当然,这些信息分类器是

2015-07-16 10:17:55 11537 13

原创 配置java环境变量

额  用unix跟linux久了   还有点不习惯windows下的环境变量不过总归是要用的,所以还是配置一下吧什么是环境变量呢,我用python来举例子吧如果在windows下,你不配置python的环境变量,那么在想在cmd里面运行python,只能进入python application所在的目录,然后运行如果我想要随时随地运行python,该怎么做呢?我肯定得告知计算机这个

2015-07-15 08:32:24 548

原创 c++中的异常 exception

变成入门的时候可能经常遇到的错误:this application has requested the runtime to terminate it in an unusual way. Please contact the application's support team for more information这是由于程序在运行时发生了未知的错误,例如:打开不存在的文件,爆栈,除数为

2015-06-14 22:25:11 1433

原创 mysql中的一些错误总结

额  mysql还是一个比较方便的数据库, 而且还是开源,所以好好掌握还是挺重要不过有的时候遇到有的问题确实挺头大的,所以最好还是自己总结一下错误比较好常见错误1:error:10061错误原因:mysql 服务没有正常启动解决办法:1.unix/linux下可以通过指令 ps -ef | grep mysql 查看mysql这个进程有没有起来,如果没有起来重新启动一下就可

2015-06-08 10:31:08 386

原创 mysql中的一些错误总结

额  mysql还是一个比较方便的数据库, 而且还是开源,所以好好掌握还是挺重要不过有的时候遇到有的问题确实挺头大的,所以最好还是自己总结一下错误比较好常见错误1:error:10061错误原因:mysql 服务没有正常启动解决办法:1.unix/linux下可以通过指令 ps -ef | grep mysql 查看mysql这个进程有没有起来,如果没有起来重新启动一下就可以了

2015-06-08 10:14:46 61

原创 ubuntu14.04下apt-get install的报错以及解决方案

前几天想要在ubuntu server 14.04下安装redis-server  结果指令敲进去之后就报错,具体什么信息我没有保留,大概就是说你磁盘空间已经满了之类的,还让你尝试输入下面的指令apt-get -f install这条指令就是用来修正一些软件依赖中存在的错误,敲进入之后出现了:磁盘空间已满,写入失败,其实这个并不是你的空间不够了,是因为你安装的包太多的缘故,可以手动清除一

2015-06-07 07:30:52 2746

原创 ubuntu下安装python scipy

前段时间又安装了一下gensim这个库,然后惊奇的发现gensim需要numpy和scipy的支持(可能之前的电脑上有装过scipy,就没有留意),所以安装之前首先要准备numpy和scipy这两个包先说一下我的安装环境:ubuntu14.04 server首先pip install numpy ,安装这个一般能够成功(一定要先安装numpy, scipy的安装依赖于scipy)接着,

2015-06-04 16:48:07 6310

原创 ubuntu下安装python scipy

前段时间又安装了一下gensim这个库,然后惊奇的发现gensim需要numpy和scipy的支持(可能之前的电脑上有装过scipy,就没有留意),所以安装之前首先要准备numpy和scipy这两个包先说一下我的安装环境:ubuntu14.04 server首先pip install numpy ,安装这个一般能够成功(一定要先安装numpy, scipy的安装依赖于scipy)接着,

2015-06-04 16:04:38 571

原创 python自然语言处理nltk库常用接口

最近准备面试,然后了解了一下nltk库的一些常用的接口,现在来跟大家分享一下首先是通过nltk对文本进行分词import nltknltk.word_tokenize("You raise me up")这个实际上就是将文本中的每个词提取出来然后我们可以吧提取出来的词做一个词性标注,接口是word_tokenizetext = nltk.word_tokenize("yo

2015-05-11 23:23:30 3004

原创 排序算法之归并排序

归并排序是分治思想体现得最充分的一种排序算法,所谓分治就是把多个问题拆分成若干个更容易解决的小问题那分治是怎么应用到排序中的呢?我们以归并排序为例把如果我们要对它排序,那是不是可以吧它分成两个序列,分别对这两个序列进行排序之后,再将两个有序的序列按找大小合并起来呢?答案是肯定的归并排序的最基本的思想实际上就是不停地划分序列,直至得到的子序列只有1个,然后将这些子序列按照顺序

2015-05-06 14:03:47 473

原创 MFC中类突然消失的解决办法

我擦,今天下午被一个问题坑惨了  害我改了好久, visual c++6.0真不是人用的东西说一下问题吧,我遇到的问题就是在class view里面,类CPageManage突然消失了,怎么也找不回来解决方法就是:打开FileView, 查看你那个类的源文件,这里,我的时PageManage.cpp谢天谢地,源文件还在,那就好办点开PageManage.h  然后随便在

2015-04-26 18:00:19 988 1

原创 LDA的python实现之模型参数训练

最近看了不少关于主题模型的东西,要说起主题模型,现在最火的当然是LDA, LDA全称是Latent Dirichlet Allocation(隐狄利克雷分布), 而不是Linear Discriminant Analysis, 相信大家很多都对lda的理解感到痛苦不已,因为里面涉及到的数学推导实在是太多了,从gamma函数,beta分布,狄利克雷分布,马尔可夫蒙特卡洛模型,看到都觉得反胃,不过今天

2015-04-25 00:27:29 18275 5

原创 centos7.0下配置mysql+mysql-python

之前写过一篇在centos6.5下配置mysql+python-flask,之所以要写这篇文章的原因就是centos7.0之后,就不支持mysql而是转向支持mysql的开源分支mariaDB也就是是  在yum的源里面实际上是没有mysql-server这个包的,yum search mysql-server也就是说如果你敲入这个指令,它会提示 错误:找不到这个包如果你直接输入下

2015-04-15 15:22:03 1619

原创 centos 6.5下安装配置apache2.2

今天因为项目需要用到图片web服务器,所以简单的在aliyun上配置了一下apache环境centos 6.5  网上很多使用的是编译安装,不过我直接用yum就OK了,不过还是老规矩,安装之前先update一下,语句如下:yum updateyum -y install httpdhttpd就是apache http server安装好了这个模块之后,启动httpd服务,语句如下

2015-04-14 19:38:45 3092

原创 python中的map/reduce, filter, lambda, set的用法

以前就用过map/reduce这些高阶函数,原本以为有的东西看一看,查一查就能记住,可根本就不是那回事儿, 如果不是神童,还是一点一点地吧学到的东西记录下来,再整理整理, 印象才深刻现在就来跟大家分享一下python 中的高阶函数还有lambda, set的用法从简单的说起:1.setset的显示定义很简单,就是用{}定义集合,然后集合中的元素以,隔开, 另外,如果显示声明时,元素

2015-04-10 23:41:04 942

原创 文本分类中的主题模型

最近在看一些关于主题模型和文本分类的论文,在这里和大家分享一下首先呢,先搞清楚一件事情就是文本分类是干啥的;文本分类就是计算机通过一定的规则,对文本进行分类(感觉像没说一样),这个类别一半是已经定义好的实际应用里面,可以将电影或者产品的评论看作是文本,我们可以对其中的褒贬性进行分类,褒义和贬义就是两个类别,我们要做的就是训练一个分类器,当输入一个文本时,分类器就会为他贴上一个“褒义”或

2015-04-08 21:08:48 4719

原创 KD-tree的原理以及构建与查询操作的python实现

前几天小组讨论会上展示了kd-tree(k-dimension tree),感觉这玩意儿还挺有用的,所以学习了一下它的原理,然后把其中的构建kd-tree以及对应的查询操作实现了一下,现在跟大家分享一下首先说一下什么是kd-tree把不过首先得说一下bst(二叉查找树),递归定义如下:如果左子树上的节点存储的数值都小于根节点中存储的数值,并且右子树上的节点存储的数值都大于根节点中存储的数值

2015-04-01 21:05:32 8095 12

原创 c/c++单链表的创建和删除,插入,反转操作

链表是c/c++中的一个重要的数据结构首先,他在物理存储上是非连续的,跟数组正好相反,数组是一系列连续的存储单元,这样的特性可能会使链表的访问时间复杂度O(n)高于数组O(1),但是对于链表的插入操作可以达到O(1),删除同理,所以当我们处理数据可能会有大量的插入或者删除操作时,用链表存放数据就非常适用啦另外,因为链表在内存中是不连续的,所以它可以充分利用内存,同时,在内存空间足够的情况下

2015-03-29 21:13:03 2616 2

原创 c++继承中的构造函数与析构函数

太久没有温习的知识,今天捡起来复习一下首先是基类的定义class baseClass{private://private memberprotected://protected memberpublic://public member};其实基类的定义跟我们平时写的类的定义完全一样,不过是在继承中,多了基类这一重身份而已现在来说一下c++为什么要增加 继承这一个特性

2015-03-22 10:25:30 1497

原创 决策树算法之ID3, C4.5, CART

这段时间小伙伴们都在忙着面试,然后各种被吊打,所以我觉得是该把以前的东西给捡起来了;今天白天温习了一下决策树的几种基本算法不过再讲决策树之前,还是先吧一些基本的统计学中的概念讲清楚比较好首先是:熵--熵是衡量一个数据集内类的混乱情况的量,熵越大,复杂程度越高,类就越混杂,熵的计算公式如下

2015-03-21 00:34:13 111

原创 MFC入门

最近学院开了一门叫RFID的课,居然要用到MFC用MFC也就算了,居然给我们提供的环境还是VC++ 6.0, 我也是醉了, 不过趁着这个机会又把这个古老的工具又熟悉了一遍,就用这篇文章讲一下怎么添加属性页,属性页中点击按钮之后怎么在文本框中显示当前系统时间的吧(以下教程是站在一个新手的角度去介绍的,希望大家能理解我的啰嗦)首先新建工程, 选择MFC AppWizard[exe]

2015-03-20 08:16:53 578

原创 centos6.5下配置mysql+python-flask

前一段时间在阿里云上买了一个云服务器,想试试其他系统,感觉ubuntu没有了新意,于是就换一下redhat系列的centos废话不多说,我选择的系统镜像是centos 6.5 64位虽然感觉有点多余,但是还是说一下,centos自带的软件包管理器是yum,ubuntu自带的是apt-get,然后他们都自带一个从网络上下载文件的自由工具,叫wget具体用法很简单,比如我要从python官

2015-03-15 01:40:43 652

centos6.5下配置mysql+python-flask

前一段时间在阿里云上买了一个云服务器,想试试其他系统,感觉ubuntu没有了新意,于是就换一下redhat系列的centos废话不多说,我选择的系统镜像是centos 6.5 64位虽然感觉有点多余,但是还是说一下,centos自带的软件包管理器是yum,ubuntu自带的是apt-get,然后他们都自带一个从网络上下载文件的自由工具,叫wget具体用法很简单,比如我要从python官

2015-03-15 00:37:51 86

原创 unicode, utf-8和ascii编码

刚刚学习python的时候在网上看到一位大牛写的关于python教程的文章,里面详细介绍了关于编码的问题,虽然学习了这么久的编程,其实对于编码还是有一点头昏。。。前段时间搞了一个小项目,处理前端输入的时候,发送的get请求有中文,当时就想应该是编码问题,可是写了好久都没有解决,最后吧输入的中文转成url编码,然后交给后端数据库处理才算勉强的解决了问题,不过对于编码还是没有足够的认识,今天总算是

2015-03-10 01:18:03 649

原创 关于c++指针的重新认识

最近重新温习了一下c++的指针,发现以前没有理解的东西好像开始有点懂了虽然指针这种东西挺烦人的,但是弄懂了总比没懂要好首先是指针的声明typeName * ptrName;要指向什么样的类型就声明为什么样的类型,比如:int * ptr; ptr就是一个指向int数据的指针,相信有的小伙伴对于*运算符两边的空格有一点困惑,可能你会在书上看到int *ptr是c程序员的习

2015-03-09 13:55:39 365

原创 浅谈朴素贝叶斯与文本分类(一)

开始介绍文本分类之前,我们先来了解一下贝叶斯分类器1.分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,我们选择具有最大后验概率的类作为对象所属的类。在文本分类里面,每一篇文档就是一个对象。可能这样说会比较抽象一点,举一个简单的例子,加入我们走在大街上看到一个大高个儿(身高大于2米),我们肯定会猜他是打篮球的,我们的这种猜测是基于 打篮球的人,他们个

2015-01-31 11:24:05 1080

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除