自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zhongfu的博客

主要处理自然语言以及数据挖掘

  • 博客(15)
  • 资源 (3)
  • 收藏
  • 关注

原创 基于ernie的语义连续性

主要是针对文本中上下文是否存在具有语义的连续性,如上文是:“我喜欢”,下文是:“从事自然语言工作”,从而判断两个句其实是连续的。主要思想是根据ernie模型对掩码的训练(词而不是全为字符如bert),当然也可以通过改造bert达到效果,如果掩盖mask该词,对该词进行掩码预测,计算该词的损失值,如果该损失值较小,则说明语义是连续的。一、业务框架二、技术架构三、参考文献ht...

2020-04-03 18:21:07 709

原创 基于CRF的实体识别

实体识别在实际生活中具有很大的 ,如识别一段文字中的人名,从而为构建知识图谱具有很重要的基础作用。常见的实体识别主要包括人名、地名、时间和组织机构;也可以根据业务的需求构建相应的实体,本文以CRF模型为理论支撑,利用人民日报的语料进行人名、地名、时间以及组织机构识别,从而对一段冗长的信息中提取出所需要的实体信息。 Crf的理论可以参考其资料进行阅读,本文主要是用于学习笔记以及后续其他业务...

2020-04-03 18:01:38 844

原创 Seq2seq模型

Seq2seq模型是一种many to many结构,它实现了从一个序列到另一个序列的转换,其基本思想就是利用两个RNN,一个RNN作为恩code人,另一个作为decoder。Encoder负责将输入序列压缩成指定长度向量,这个向量可以看出序列的语义,而decoder则是负责根据语义将语义向量转化为指定的序列,这个过程称为解码。一、RNN RNN循环神经网络,主要用来处理输入前后具有...

2019-03-11 18:53:00 2012

原创 句子相似性

在nlp任务中,经常会遇到求解相似语句判断的场景,这就涉及到了句子的相似性判断。目前常用的两种方法是基于word-level级别和sentence-level级别。一、Word-level的思想是通过对句子进行分词,分别计算两个比较句子中所含词汇的相似度。主要包含两个核心问题,一个是词的相似度计算问题,另一个是对多个词进行相似度加权融合问题1.1 基于word的相似度计算问题 目...

2019-03-07 16:00:27 2115

原创 词向量

词向量是自然语言处理中重要的基础,有利于我们对文本、情感、词义等等方向进行分析,主要是将词转化为稠密向量,从而使得相似的词,其词向量也相近。一、词向量的表示 词向量的表示通常有两种方式,一种是离散的,另一种是分布式的;其离散方式通常称为one-hot representation,其缺点是不能显示词与词之间的关系,但优点是在高维空间中,很多任务线性可分。 其分布式的方式通常称为...

2019-03-07 12:49:31 5460

原创 文本特征提取

对文本处理一般是将句子分成词级别来进行处理,如果原始文本由几十万个中文词组成,那么将产生非常高的维度,因此为了剔除一些不必要的文本信息,需要从中提取与之相关的特征词,常用的方法有IG信息增益、df特征、CHI(卡方校验)、MI互信息方法等等。一、IG信息增益 一个系统中,某个变量的X,其取值有n种,分别为x1,x2,…,xn,因此X的信息熵为 信息增益是针对一个个特征而言,...

2019-03-05 14:05:47 1781 2

原创 关键信息提取

一、PageRank主要是基于图模型,计算网页的重要性,其公式主要如下: S(Vi)和S(Vj)都表示其PR值,为了防止重点问题(有些网站不指向其他网站)和陷进问题(自己指向自己),因此加了(1-d)和d这个阻尼系数。因此其公式实质就是P=A*P,该公式利用矩阵有比较好的理解,P代表转移矩阵(可以统计出来),A代表rank列。二、textRank则是基于PageRank算法的基础之上...

2019-03-04 18:06:10 2516

原创 词义消歧

词义消歧在nlp中是重要的核心问题之一,词义、句义以及篇章含义层次都会根据不同的上下文环境产生不同的意义,消歧就是指根据上下文确定对象语义的过程。词义消歧是在词语层次上的语义消歧,常常在搜索引擎、意见挖掘、文本理解与产生、推理中具有应用。一、常用的算法1、监督学习算法 a.确定词表和释义表,如目标词“bass”,有两个释义:乐器-贝斯,鱼类-鲈鱼; b.获取语料:Googl...

2019-03-04 14:17:18 7485 3

原创 基于互信息的词语搭配抽取

一、前言 互信息,是衡量两个变量X和Y的相关性,对于离散信息互信息的表示如下: 对于连续性变量的定义如下: 其中p(x,y)为联合概率分布函数,p(x)和p(y)为边缘概率分布函数;这里的log来自于信息理论,当取log后,就将一个概率转换为了信息量(要再乘以-1将其变为正数),以2为底时,可以简单理解为取多少个bits表示这个变量。二、互信息与条件熵、联合熵的关系...

2019-03-01 14:08:19 3783 3

原创 基于依存句法和语义角色标注的事件三元组抽取

一、前言 句法分析是自然语言中关键技术之一,其主要任务时确定句法结构、句子中的词汇之间的依存关系;因而主要包括两方面的内容:一、确定语言的语法体系,即对句子结构给与形式化定义;二、句法分析技术,根据语法体系,推导出句子的句法结构,以及句法单位与句法单位之间的关系。 语义依存分析是分析句子中的各语言单位的关联,并将语义关联以依存的结构进行展示;语义依存分析目标是跨越句子表层句法结构的束缚...

2019-02-28 17:37:35 12415 10

原创 拼音转汉字

  拼音转汉字主要是针对具有连续序列如:woaizhongguorenmingya,这种类型转化为汉字。其主要思路分为两步走,第一步是对拼音进行分割,以分割出正确的拼音;第二步是利用hmm方法,计算汉字的最大观测序列,从而得到最大概率的中文字链。算法描述:  第一步:  1、首先构建拼音的TrieNode树;  2、利用TrieNode树查找出字符串中所有匹配词;  3、选取最...

2019-02-27 15:15:55 10536 2

原创 CRF条件随机场

  CRF即条件随机场(Conditional Random Fields),是在给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型,它是一种判别式(理解一些和生成模型的区别)的概率无向图模型,既然是判别式,那就是对条件概率分布建模。一、概率无向图模型  概率无向图模型是由无向图表示的联合概率分布,假设联合概率分布P(Y)通过无向图来表示,在图中节点表示随机变量,边表示随机变...

2019-02-26 17:02:06 1008

原创 基于n-gram模型的中文分词

一、前言  n-gram模型,称为N元模型,可用于定义字符串中的距离,也可用于中文的分词;该模型假设第n个词的出现只与前面n-1个词相关,与其他词都不相关,整个语句的概率就是各个词出现概率的乘积;而这些概率,利用语料,统计同时出现相关词的概率次数计算得到;常用的模型是Bi-gram和Tri-gram模型。  n-gram的应用:模糊匹配二、算法推论  假设一个字符串s由m个词组成,...

2019-02-22 14:59:37 14089 8

原创 基于双向匹配的中文切词

一、前言  本文主要是基于匹配算法进行中文的切词。二、算法思路最大正向匹配算法:  1、从左向有选取长度为m的字符作为匹配段  2、首相将最大词长度m作为该匹配词,在字典中查找,若存在,则将该词切分出来  3、若不存在,则切分m-1的词作为匹配词,在字典中查找;依次类推,知道m=1  4、若m字符类的词都不存在,则按字符进行切分;  5、此方法存在一个问题,会将首先...

2019-02-21 11:29:41 585

原创 基于HMM的中文分词

一、前言  本文主要是基于隐马尔科夫模型对中文词进行分词。二、HMM的理解  HMM是一个统计模型,主要有HMM由初始状态概率分布π、状态转移概率分布A以及观测概率分布B确定,为了方便表达,把A, B, π 用 λ 表示,即:            λ = (A, B, π)  状态集合S:{B,M,E,S},N=4  π:初始状态概率分布,如{B:-0.262686608...

2019-02-19 19:27:49 4151

hibernate所需要的jar包

这是我们在用ssh开发时的hibernate所有需要的jar包

2015-07-02

java的三个jar包

链接java开发的三个jar包,希望能对你学习java有用

2015-01-04

复杂网络的基本代码

有关复杂网络世界的基本代码,如小世界网络、无标度网络等等

2015-01-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除