自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 问答 (1)
  • 收藏
  • 关注

原创 nlp学习10

BERTTransformer的原理Transformer是一种完全基于Attention机制来加速深度学习训练过程的算法模型。Transformer最大的优势在于其在并行化处理上做出的贡献。Transformer抛弃了以往深度学习任务里面使用到的 CNN 和 RNN ,目前大热的Bert就是基于Transformer构建的,这个模型广泛应用于NLP领域,例如机器翻译,问答系统,文本摘要和语...

2019-07-18 16:26:57 85

原创 nlp学习9

Attention原理1.基本的Attention原理注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。Attention机制的基本思想是:打破了传统编码器-解码器结构在编解码时都依赖于内部一个固定长度向量的限制。At...

2019-07-15 17:22:41 110

原创 nlp学习8

RNN的提出背景RNN通过每层之间节点的连接结构来记忆之前的信息,并利用这些信息来影响后面节点的输出。RNN可充分挖掘序列数据中的时序信息以及语义信息,这种在处理时序数据时比全连接神经网络和CNN更具有深度表达能力,RNN已广泛应用于语音识别、语言模型、机器翻译、时序分析等各个领域。RNN的训练方法——BPTT算法循环神网络的训练算法是Backpropagation Through Time...

2019-07-12 20:13:12 164

原创 nlp学习7

卷积神经网络1.卷积神经网络算法概述卷积神经网络(Convolutional Neural Network,CNN)最开始是为了解决图像识别问题被设计而来的,CNN使用图像的原始像素作为输入,训练时可以自动提取图像特征;卷积神经网络的三个基本要点是:局部连接,权值共享和降采样。其中局部连接和权值共享降低了参数量,减少了模型复杂度;而降采样则进一步降低了输出参数量,并赋予模型对轻度畸变的容忍性,...

2019-07-09 20:42:45 127

原创 nlp学习6

神经网络基础前馈神经网络前馈网络中各个神经元按接受信息的先后分为不同的组。每一组可以看作一个神经层。每一层中的神经元接受前一层神经元的输出,并输出到下一层神经元。整个网络中的信息是朝一个方向传播,没有反向的信息传播,可以用一个有向无环路图表示。前馈网络包括全连接前馈网络和卷积神经网络等。其可以看作一个函数,通过简单非线性函数的多次复合,实现输入空间到输出空间的复杂映射。见下图:注意:如上图...

2019-07-06 20:22:51 83

原创 nlp学习5

文本表示:从one-hot到word2vec##1.词袋模型:离散、高维、稀疏词袋模型(Bag of Words,简称BoW),即将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立的,把每一个单词都进行统计,同时计算每个单词出现的次数。也就是说,词袋模型不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重,而权重与词在文本中出现的频率有关。  词袋模型的三部曲:分词...

2019-07-03 20:41:43 65

原创 nlp学习4

1. 朴素贝叶斯1.1 朴素贝叶斯的原理原理参考:https://blog.csdn.net/llh_1178/article/details/79848922https://www.cnblogs.com/hapjin/p/8119797.html1.2 利用朴素贝叶斯模型进行文本分类代码实现:参考:https://blog.csdn.net/starmoth/article/det...

2019-06-30 19:33:52 76

原创 nlp 学习3

特征选择1.TF-IDF原理TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。词频TF(item frequency):某一给定词语在该文本中出现次数。该数字通常会被归一化(分子一般小于分母),以防止它偏向长的文件,因为不管该词语重要与否,它在长文件中出现的次数很可能比在段文件中出...

2019-06-27 20:38:50 115

原创 nlp学习2

特征提取1. 基本文本处理技能1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法)1.2 词、字符频率统计;(可以使用Python中的collections.Counter模块)2.2.1 语言模型中unigram、bigram、trigram的概念2.2 unigram、bigram频率统计;(可以使用Python中的collections.Counter模块,也可以自己寻找其他好用...

2019-06-24 20:35:00 115

原创 nlp学习1

nlp的基础知识学习1.tensorflow 基础知识1.1 tensorflow的安装1.2 tensorflow的知识点2. IMDB数据集下载和探索2.1下载IMDB数据集2.2 IMDB数据探索3.HUCNews数据集下载和探索3.1 数据集下载3.2 数据预处理3.3 数据探索4、模型评估1.tensorflow 基础知识1.1 tensorflow的安装由于我的电脑不支持gpu加...

2019-06-21 20:58:03 107

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除