MichaelYnag-CSDN博客

原创中文分词技术

中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个「充分大的」机器词典中的词条进行配，若在词典中找到某个...

2019-10-10 17:53:20 576 1

原创算法学习笔记梳理一

一、生成模型与判别模型监督学习的目的就是学习一个模型：监督学习1 联合概率分布假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y) P(X,Y)为分布函数或分布密度函数对于学习系统来说，联合概率分布是未知的，训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。(X,Y)相互独立并且分布相同2. 假设空间...

2019-02-28 13:55:28 265

最近在一些地方用到了最大熵和信息增益的概念，所以回过头来重新复习了一下具体的概念。熵与信息增益在决策树算法中，决定特征优先级时，需要用到熵的概念，先挖个坑1信息量信息量是用来衡量一个事件的不确定性的；一个事件发生的概率越大，不确定性越小，则它所携带的信息量就越小。2 熵熵是用来衡量一个系统的混乱程度的，代表一个系统中信息量的总和；信息量总和越大，表明这个系统不确定性就越大。信息量用来衡量一个事件的不

2017-11-01 10:48:15 427

原创机器学习随记1-逻辑回归（Logistic Regression）-1

刚参加完校招，虽然社招经历过无数次了，但是作为校招算法面试官我还是第一次。我承认作为面试官对某些算法的面试是有偏好的。譬如说我就喜欢问SVM相关的问题，估计可能是以前在看这个算法时受到的刺激比较大。^_^ 经过了校招发现大家对算法的掌握程度还是不一样的，有些人对某个算法问题的掌握还是比较深入的。比如SVM，为什么叫支持向量机，什么是对偶问题求解，KKT算法等等。后来跟同行的面试官交流，他说：“机器

2017-10-10 17:35:14 381

原创 ReLu(Rectified Linear Units)激活函数

传统 Sigmoid 系激活函数传统神经网络中最常用的两个激活函数，Sigmoid 系（Logistic-Sigmoid、Tanh-Sigmoid）被视为神经网络的核心所在。从数学上来看，非线性的 Sigmoid 函数对中央区的信号增益较大，对两侧区的信号增益小，在信号的特征空间映射上，有很好的效果。从神经科学上来看，中央区酷似神经元的兴奋态，两侧区酷似神经元的抑制态，因而在神经网络学习

2017-09-30 17:31:04 472

转载算法面试思路随记1

如何判断单链表里面是否有环？算法的思想是设定两个指针p, q，其中p每次向前移动一步，q每次向前移动两步。那么如果单链表存在环，则p和q相遇；否则q将首先遇到null。关于代码可以参考 http://blog.csdn.net/neosmith/article/details/47185593。机器学习面试朴素贝叶斯：　　有以下几个地方需要注意：　　1. 如果给出的特征向量长度可能不同，这是需要

2017-09-22 15:34:48 318

原创花书阅读随记1

花书第一部分是一些基本概念，但是我觉得这些概念都是比较重要的一些概念。下面对一些概念进行笔记：第一部分线性代数特征值与特征向量特征向量的代数含义是：将矩阵乘法转换为数乘操作；特征向量的几何含义是：特征向量通过方阵A变换只进行伸缩，而保持特征向量的方向不变。特征值表示的是这个特征到底有多重要，类似

2017-09-21 17:19:58 321

原创词的向量表示

Vector Representations of Words自然语言处理不同于图像或音频处理。在图像处理中，像素点的强度值(如果是256色的强度值为0-255)是可以表示成High Dimension的 Data Vector Set。同样音频的功率密度的强度值也是可以表示成 Data Vector Set。在自然语言处理中，每个词的传统表示都是离散的，简单的说，就是词和词之间不存在任何的关联

2017-09-19 13:44:50 1400

转载深度学习面经

CNN最成功的应用是在CV，那为什么NLP和Speech的很多问题也可以用CNN解出来？为什么AlphaGo里也用了CNN？这几个不相关的问题的相似性在哪里？CNN通过什么手段抓住了这个共性？ Deep Learning -Yann LeCun, Yoshua Bengio & Geoffrey Hinton Learn TensorFlow and deep learning, without

2017-09-19 13:33:43 1120

转载频率和概率以及均值和期望的联系区别

在学习的过程中，我经常会将频率和概率、均值和期望这两对概念搞混，这次总结一下，希望能对其他同学有所帮助。1频率和概率我们首先来看一个常见的误区。当我们抛一门硬币50次的时候，出现20次正面朝上，30次反面朝下，我们有些同学会说，正面朝上的概率是2/5，这就是典型的将频率和概率没有区分出来。在上面这个例子中，关于20次出现正面朝上，只能说正面朝上的频率是2/5，而不能说概率是多少多少。因为概率是理想值

2017-09-12 12:41:56 8119

转载 seq2seq以及Attention机制

RNN 由一系列相同的网络构成（图 1 中的长方形表示一个网络），上一个词语的向量表示作为计算下一个网络的输入，如此循环。整个句子每个词军计算完成，便得到了一个句子的语意向量。所谓encoder-decoder模型，又叫做编码-解码模型。这是一种应用于seq2seq问题的模型。那么seq2seq又是什么呢？简单的说，就是根据一个输入序列x，来生成另一个输出序列y。seq2seq有很多的应

2017-09-12 11:33:02 1348

原创 BiLSTM+CRF 在 NER方面的应用

RNN简介 RNNs的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。 RNNs之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并

2017-09-11 15:17:04 1176

原创词向量随记1

学习NLP先从一些基本的CASE 入手吧，比如训练条件随机场，训练词向量。会用工具也是一种技能，请不要小瞧这种能力，他山之石可以攻玉。言归正传今天从词向量开始。资源https://code.google.com/archive/p/word2vec/ https://code.google.com/p/word2vec/ https://github.com/svn2github/wor

2017-09-06 17:35:10 679

原创条件随机场随记2

CRFs 具有其它模型的优点，且不存在标记偏置问题。

2017-09-05 17:16:40 299

原创条件随机场随记1

条件随机场看成是一个无向图模型或马尔可夫随机场这时我们称（X,Y）为条件随机场这个概念中有几点需要引起注意的地方。（1）CRF 是一个无向图模型，这是有区别HMM的一个模型（2） Y 服从马尔科夫属性。讲条件随机场会引入一个势函数的概念。比如李航《统计学习方法》。为什么CRF会引入势函数？因为尽管在给定每个节点的条件下，分配给该节点一个条件概率是可能的

2017-09-05 17:02:51 465

原创 Dependency Parser 算法随记1

通过采用Bilstm Model 做过了NER 的Case 后，脑子一直盘旋着一个疑问，为什么Parser 不能？今天无意中看到一篇帖子，讲得就是采用Bilstm Model 解决Dependency Parser的问题。

2017-09-05 09:31:34 904

原创自然语言学习心得2

序列标注问题总结：分词： BMES 问题 POSTag ： BIES 问题 NER ： BIO 问题

2017-09-04 22:47:48 485

原创自然语言学习心得 1

作为一个自然语言处理算法工程师，我的知识机构和技能每天都在接受新的挑战。总有一些新手会问我一个问题：自然语言处理到底怎么学？其实自然语言处理归结起来处理的无非是序列标注问题和文本分类两大类问题。分词，词性标注，NER，Parsing 属于序列标注问题；文本分类，情绪检测属于分类问题。所以只要学好这两类问题，基本上就可以应付自然语言处理中80%的问题。至于一些高级的专题，想必也是由各种简单的c

2017-09-04 22:19:55 887

原创 EM 算法随记(1)

最大熵模型面临两个问题，一是如何确定模型是均匀的，二是根据一个约束集如何找到一个最优的均匀分布。由上面熵取得最大值时分布可知，当熵模型在满足约束条件下取得最大值时，熵模型是均匀的。

2017-09-04 11:30:09 311

原创 HMM 算法随记(1)

今天开始写一些算法的随记。因为除了写一些大段的文章来说，把一些读paper 或者是读算法心得记录一下更重要。所以开始写一些随记。希望自己能坚持下去！关于HMM的随记：在自己的工程实践中用HMM很多次了，关于HMM的中英文资料也读了一些。HMM的局限在哪儿？ HMM是前提是一个双随机过程，HMM遵循马尔科夫随机过程，马尔科夫随机过程的特性如下：

2017-09-04 10:58:32 358

原创面对大数据，开启新的思维

听过张老师的讲座，有点小感触。对于大数据和文本挖掘，我觉得张老师的思路的确值得推荐：“小数据 + 复杂方法 ” 确实不如 “大数据 + 简单方法” ！希望以后能多体会到这种方法的神奇之处。

2015-09-10 10:53:50 379

Michael_liuyu09的专栏