- 博客(10)
- 收藏
- 关注
原创 NLP降临在我身边 11
终于要给这段时间的学习画上句号了…啊不对我的SVM还没写!等下再补吧。 1 循环神经网络RNN(Recurrent Neutral Network) 1.1 RNN的提出背景 之前介绍了前馈神经网络,前馈神经网络的信息传递是单向的,只能使当前层的信息流入前一层,而不能将过往的信息保留。 之前同样介绍过卷积神经网络,卷积神经网络通过将全连接信息强行限制为稀疏的信息,做到了最大化利用局部信息,并节省了...
2019-04-27 20:25:55 153
转载 NLP降临在我身边 10
有一篇写得很好的博客,我直接贴在前面: https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/80269127 由于不会用公式,不会代码实现,所以好多内容都没法写。可能会变成读后感之类的文字。 (赶快给我去补知识内容啊!) 卷积运算 卷积运算定义 引用一个很有名的表达方式:输出 = 系统(输入) 在卷积运算中,系统是卷积,名词翻译也会落...
2019-04-25 21:36:53 134
原创 NLP降临在我身边 9
依旧是没有代码实现的博客,我就是所谓的Datawhale之耻吧。(悲) 这次学的是word2vec。 文本表示:从one-hot到word2vec 词袋模型:离散、高维、稀疏 one-hot将词语含义存储于不同的dim上,例如下面的文本: [‘我’,‘用’,‘钢笔’] 这里已经经过分词处理。进行one-hot编码后,可以是这样: {‘我’:001,‘用’:010,‘钢笔’:100} 我们这里认为机...
2019-04-23 20:38:58 100
转载 NLP降临在我身边 8
不敲代码强行完成任务…感觉有点丢人啊。但是不能坑掉,至少要先跟上。 前馈神经网络 前馈神经网络即Feedforward Neural Netword(FNN),在不同层中分布着神经元,信号只能顺序传递,无法倒转。整体来说,FNN分为输入层、隐藏层、输出层三种类型的层。 输入层传入的数据具有特征,这些特征被各层神经网络进一步处理后传递,每一个神经元都与下一层所有的神经元连接。反过来说,每一个神经元都...
2019-04-21 21:58:48 466
原创 NLP降临在我身边 7
已经有点跟不上了,但是不想留坑,能写多少写多少。 文本写作的顺序与逆序 假设老师让写一篇作文《难忘的一件事》,我根据根据其他范文经验推断出四个高分主旨:坚强,奋斗,合作,坚持。为了尽可能拿高分,我整篇文章都离不开这四个主旨,每个选词也是根据主旨选的。为了统一用词,我们将主旨称为Topic。 假设我平时是一个好孩子,经常积累不同Topic的好词好句。不仅如此,我还奋发图强,把好词好句的使用频率都记下...
2019-04-20 00:50:16 99
转载 NLP降临在我身边 5
最近巨忙,再加上自己不太熟,估计不会有代码实现…但是知识还是学会了的。 朴素贝叶斯 不会用公式,全部用文字敲吧。 朴素贝叶斯由朴素-贝叶斯两个部分组成,首先解释贝叶斯。假设A是特征集,B是种类,且每个特征集都有对应的种类。如果面向的需求是“已知特征集,需要预测种类”(B|A),则可以由三项数据“已知种类时,特征集的频率”(A|B),“种类的频率”(B),“特征集的频率”(A)。 刚刚说到了特征集,...
2019-04-15 22:01:24 59
转载 NLP降临在我身边 4
TF-IDF原理 TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。词频比较容易理解,这里说一下IDF(逆文本频率)的含义。一般认为,一个词语在不同类型的文档中出现频率越高,它所包含的文档特征的要素越少,例如“中国”这一词语的IDF值就会比较低。TF显示词语在文本中的重要性,IDE显示词语在所有文本中的特殊性,二者...
2019-04-14 23:22:16 94
转载 NLP降临在我身边 3
基本文本处理技能 分词 中国有一种特有的文化现象,叫做文盲,即只会听读不会写。建国后国家曾经进行了很多次文化普及运动,例如义务教育,旨在降低文盲率。现在的文盲比率已经被大幅度降低,文盲大多是农村长者,没能享受到教育红利。所以文盲其实不是一个贬义词,而是一种特殊的现象,其根源在于汉语的音与形分离。 新文化运动时期,曾有人提出过将文字罗马化。解释罗马化并不容易,不如举一个例子,日语与韩文都是罗马化后的...
2019-04-11 21:54:21 116
转载 NLP降临在我身边 2
数据探索与常识科普THUCNews中文新闻数据集;IMDB英文影评数据集基本指标Confusion Matrix, Binary classificationPrecision, Recall, ROC, AUC THUCNews中文新闻数据集;IMDB英文影评数据集 THUCNews是THU对新浪新闻RSS订阅频道2005~2011年历史数据处理后的新闻文档,地址:http://thuctc.t...
2019-04-09 22:00:11 109
原创 NLP降临在我身边 1
NLP降临在我身边 1Anaconda的安装与常用指令Pycharm的安装与使用(暂时搁置)Jupyter Notebook安装Tensorflow GPU版本的安装 Anaconda的安装与常用指令 本人第一次接触到Anaconda是在安装TensorFlow的时候,原先的Py版本过高不兼容,通过Anaconda创建了Python 3.5版本后才能顺利安装。 个人理解,Anaconda的用途是创...
2019-04-07 21:04:15 148
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人