自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 5分钟理解CFG上下文无关文法的解析算法

本文是5分钟理解CFG上下文无关文法的续集,在5分钟理解CFG上下文无关文法这篇文章中已经讲解了CFG的基本概念,但是CFG的解析算法才是核心。由于它的解析算法极其复杂,网上很少有文章能把解析算法用大众能理解的语言写出来,本人在理解了算法后用python代码实现了算法,通过测试用例验证了该算法的正确性,当然也验证了我理解的是正确的。这里说的解析其实就是验证一个输入字符串input是否符合给定的文法G,实现算法有CYK解析算法,和Eerley解析算法,都是是以人名命名。下面介绍Eerley解析算法假设

2021-02-05 14:37:28 2295 1

原创 5分钟理解CFG上下文无关文法

CFG是基于规则的NLP(自然语言处理)的一种方法。CFG是什么CFG的英文全称context free grammar,中文叫上下文无关文法 CFG是一组替换规则,例如:A->B C; B->E F; E->e;… A->B C表示变量A可以被变量B和变量C替换,E->e表示变量E可以被最终的值e替换。e不是变量,不可再被替换了。 CFG主要作用是验证一个输入字符串input,是否符合某个文法G。与正则表达式比较像。但是比正则表达式功能更强大,能表达非常复杂的文.

2021-02-05 12:19:22 7729

原创 5分钟理解transformer模型位置编码

Bert模型是自然语言处理方面程碑式的进步,核心是transformer层, 而transformer是自注意力编码器,循环网络天生的文字顺序信息在自注意力编码器中没有了,而语言往往是顺序不同意思相差很大。所以transformer的作者设计了一个位置编码方式,为每个不同位置的token...

2020-08-07 16:43:25 12250 11

原创 5分钟理解边缘概率,联合概率,条件概率,随机事件独立,随机事件依赖

在隐马尔可夫(HMM)和条件随机场(CRF)中有很多概率计算问题,要想理解他们,必须先把概率的一些概念及计算公式搞清楚。本文旨在用形象的图形和具体事例来讲解这些概念和公式,以帮助理解。边缘概率:一个随机事件的发生概率,记做P(X),而这件事不发生的概率是1-P(X),有的会记做P(...

2020-04-14 18:14:38 4176

原创 5分钟理解维特比算法

安德鲁·维特比老人家发明了维特比算法,用非常巧妙的方法简化了隐马尔可夫第二个问题运算过程。维特比先生后来发明了CDMA技术并与人一起创办了高通公司,高通现在是通信巨头,不生产产品却每年收取大量的专利费。 下面我们用简单的例子(而不是深奥的数学公式)来理解维特比算法。标题 图1中有若干个节点,S是起点,D0是终点,节点之间的连线是通道,每条通道的路程各不相同,现在问从起点...

2019-08-17 10:32:13 725 3

原创 5分钟理解条件随机场(CRF)概念

开始我给的标题是5分钟理解条件随机场,后来发现这有点大言不惭,因为条件随机场非常复杂,即使大师都没法在5分钟内讲清楚,几个小时还差不多,而且听众要有较强的数学基础才能听懂。所以这篇文章只讲基础概念,下篇再讲应用细节。条件随机场,英文Conditional Random Field,通常简称CRF,在机器学习中用来解决序列标注问题。典型的序列标注问题就是对句子进行词性标注。如:我 /n ...

2019-08-11 14:05:54 3403 1

原创 5分钟理解互信息,条件熵,联合熵

好不容易理解了信息熵的概念后,又发现还有其他各种熵,经常把人绕晕,比如决策树模型中要计算信息增益(其实就是互信息),最大熵模型中要计算条件熵,下面我们就来用5分钟理解下互信息,条件熵,联合熵。先看他们之间的关系。上图中两个完整的圆圈,分别表示X的信息熵H(X),和Y的信息熵H(Y),两个圆有一部分是重叠的,重叠部分用C表示,A和B表示的是完整圆去除了重叠区域C的部分。H(X)=A...

2019-08-07 08:19:09 1947

原创 5分钟理解信息熵

机器学习中各种熵(信息熵,条件熵,联合熵,互信息,交叉熵)是最重要的概念之一,也是最难理解的。对于分类问题,我们常常计算两个概率密度函数的交叉熵,以衡量预测值和真实值之间的误差。而信息熵是这些概念的基础。含义:智商是衡量一个人智力高低的指标,信息熵(商)是衡量一个随机事件所包含的信息量的指标。信息量怎么衡量呢?信息是用来传递的,传递时是需要借助某些介质来对信息编码的,正如古代用烽火台来传...

2019-08-06 22:44:57 4372

原创 5分钟理解贝叶斯公式

贝叶斯公式:$$P(Y|X)=\frac{P(X|Y) P(Y)}{P(X)}$$贝叶斯公式是机器学习的大部分算法理论的基础,比如朴素贝叶斯方法,隐马尔可夫模型,条件随机场,可以说不理解贝叶斯公式就不可能搞懂机器学习算法。先用个例子理解贝叶斯公式涉及的几个概念:先验概率(又叫边缘概率)P(X)或P(Y),联合概率P(X,Y),后验概率(又叫条件概率)P(X|Y)和P(Y|X)。假设老王...

2019-08-04 19:33:03 2388 1

原创 垃圾邮件分类器的原理(2)

基本原理是:1.拿到一批英文邮件,其中标记好哪些是正常,那些是垃圾,作为训练和测试样本2.5000个样本,随机取4000个作为训练样本,另外1000个作为训练完成后的测试样本来验证判断效果准不准3.对邮件进行预处理,把词缀ing,ies,es,ed,ied去除,这样使得不同时态的单词当成相同单词来处理,对所有数字统一替换为字符串“number”,对网址统一替换为“addr”,对网页标签字符直...

2017-08-17 23:44:17 1244

原创 垃圾邮件分类器的原理(1)

学习完了斯坦福大学《机器学习》第7周课程,做完编程作业垃圾邮件分类器,准备分享下实现原理和实现方法,对自己也是起到总结作用,对博友是个参考,估计得写好几篇才能讲完,这是第一篇。第二篇的地址:垃圾邮件分类器的原理(2)先看运行结果:训练样本有4000个,测试样本有1000个,结果显示判断准确率都在98%以上Preprocessing sample email (emailSample...

2017-08-17 22:35:32 2290

数据库设计与sql优化培训讲义

Oracle数据库SQL运行原理与开发环境 –Oracle数据库系统结构与SQL执行过程 –SQL性能及其优化原理 –SQL & PL/SQL开发环境 •数据库设计 •SQL语句的编写与优化 •SQL性能诊断与调优方法

2014-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除