自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

转载 NLP入门-Task10 Bert及文本分类

参考资料:BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding、5分钟入门BERT-简书、BERT预训练模型-博客园、使用Bert预训练模型文本分类、一文看懂Transformer内部原理1、Transformer原理 Transformer模型,来源于《Attention is All ...

2019-07-18 00:22:01 313

转载 NLP入门—Task7 卷积神经网络+Text-CNN

参考资料:一张图帮你弄懂text-cnn、CNN笔记:通俗理解卷积神经网络1、卷积运算1.1 卷积运算 卷积运算是一种数学变换,公式中采用星号表示: s(t) = (x*w)(t)。x函数代表输入,w函数为核函数,输出被称作特征映射。1.2 动机(稀疏权重、参数共享、等变表示) 稀疏交互(sparse interactions),卷积神经网络的特征之一,通过控制核的大小远小于输入大小来达...

2019-07-09 15:13:42 244

转载 NLP入门—Task6 神经网络基础 FastText

参考资料:fastText源码分析以及使用、1、神经网络基础1.1 前馈神经网络 前馈神经网络指的是在神经网络里单方向向前传播。神经网络主要由输入层、隐藏层和输出层构成。 当隐藏层只有一层时,该网络为两层神经网络;如果有多个隐藏层则称之为深度神经网络。隐藏层一般是通过转换输入数据特征空间来进行抽象,提取其特征。在这一过程中,经历多次抽象以获得更好的线性规划,隐藏层数按需求进行人工设定。1...

2019-07-06 15:15:51 757

转载 NLP入门—Task5 从one-hot到word2vec

参考资料:词袋模型、word2vec1、word2vec2、word2vec 中的数学原理详解、word2vec原理推导与代码分析1、词袋模型 词袋模型(Bag of Words,简称BoW),词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅考虑词的权重,而这一权重与词频率有关(参见前几篇)。常见方法为one-hot、TF-TDF。 如果有一个3个词组成的词汇汇表,词“listen”的...

2019-07-03 20:45:37 171

转载 NLP入门—Task4 朴素贝叶斯+SVM模型+LDA主题模型

参考资料:朴素贝叶斯、用LDA处理文本(Python)、SVM做文本分类详细操作流程1、朴素贝叶斯1.1 原理 x代表事物,x的集合记为X,成为属性集。C={c1,c2,…cm}。朴素贝叶斯公式,是用C的后验概率P(C|X)最大值来进行分类,后验概率计算是由先验概率与类条件概率的乘积得出,先验概率P©和类条件概率要通过训练数据集得出(朴素贝叶斯分类模型),将其保存为中间结果,测试文档进行分类...

2019-06-30 19:29:12 402

转载 NLP入门—Task3 特征选择

参考资料:文本挖掘预处理之TF-IDF使用不同的方法计算TF-IDF值:使用不同的方法计算TF-IDF值sklearn:点互信息和互信息如何进行特征选择(理论篇):机器学习你会遇到的“坑”1、TF-IDF原理  TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。  TF使...

2019-06-27 20:08:27 113

转载 NLP入门—Task2 特征提取

参考资料:中文分词技术基本文本处理文本预处理结巴分词1、基本文本处理1.1 分词的概念分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于字标注的分词方法。几种常见的方法:最大匹配法:以词典为依据,取词典中最长单词为第一个次取字数量的扫描串...

2019-06-24 20:54:13 237

转载 NLP入门—Task1 基于tensorflow的数据集探索

参考学习资料:基于Tensorflow进行NLP文本分类:对IMDB影评数据集进行情感分析采用的API:tf.kerasimport tensorflow as tffrom tensorflow import kerasimport numpy as npprint(tf.__version__)IMDB数据集下载:imdb = keras.datasets.imdb(t...

2019-06-21 19:22:33 226

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除