- 博客(6)
- 资源 (2)
- 收藏
- 关注
原创 ELMO论文学习笔记
概述为了解决一词多义的问题,同时表达单词使用的语法和语义以及在上下文语境中的变化。词向量是一个深层双向语言模型(biLM)的内部状态的学习函数,它是在一个大型文本语料库上预先训练的,这些表示可以很容易地添加到现有的模型中。ELMO的思想是:先用语言模型学习单词的Word Embedding,此时没有区分多义词,但是在实际使用Word Embedding时,单词已经具备特定的上下文了,这时可以根...
2019-06-26 21:27:08 1388
原创 NLP-Task5——朴素贝叶斯和支持向量机原理
朴素贝叶斯分类器简介假定输入的特征是x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn,输出的分类是y,朴素贝叶斯模型使用贝叶斯公式计算后验概率:P(y∣x1,…,xn)=P(y)P(x1,…xn∣y)P(x1,…,xn)P\left(y | x_{1}, \ldots, x_{n}\right)=\frac{P(y) P\left(x_{1}, \ldo...
2019-05-20 21:35:58 346
原创 NLP-Task4——从one-hot到word2vec
词的表达给定语料库D={D1,D2,⋯ ,DN}\mathbb{D}=\left\{\mathcal{D}_{1}, \mathcal{D}_{2}, \cdots, \mathcal{D}_{N}\right\}D={D1,D2,⋯,DN},其中包含N篇文档。每篇文档Di\mathcal{D_i}Di包含单词序列(wordI1i,wordI2i,⋯&...
2019-05-18 21:49:28 310
原创 NLP-Task3——特征选择
任务描述:Task3特征选择TF-IDF原理以及利用其进行特征筛选互信息的原理以及利用其进行特征筛选TFIDF在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,如果直接将统计词频后的特征作为文本分类的输入,会出现词频不能反映词的重要性的问题。因此我们需要进一步的预处理来反应文本的这个特征,这个预处理就是TF-IDF。每一个文档的关键词(或主题词)包括哪些?给...
2019-05-16 20:33:14 249
原创 jieba分词用法介绍
特点支持三种分词模式:精确模式,试图把句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词支持自定义词典MIT授权协议算法基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图...
2019-05-14 15:42:55 603
原创 数据集探索-IMDB数据分析
影评文本分类我们将使用IMDB数据集,其中包含来自互联网电影数据库的50000条文本。我们将这些文本拆分成训练集和测试集,使它们包含相同的正面和负面影评。这里使用colab做演示。导入相应的包import tensorflow as tffrom tensorflow import kerasimport numpy as np下载IMDB数据集TensorFlow中包含IMD...
2019-05-12 23:12:46 2556 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人