- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 007_NLP_Task6 利用Text-CNN模型来进行文本分类
卷积运算的定义 参考:https://www.cnblogs.com/lhuser/p/8414759.html 卷积运算的动机 参考:https://www.jianshu.com/p/e3824e8fd115 一维卷积运算和二维卷积运算 参考:https://www.cnblogs.com/dasein/p/5692153.html 练习代码: #coding = utf...
2019-05-23 14:41:57 187
原创 007_NLP_Task6 FastText模型进行文本分类
神经网络基础 学习链接:https://www.cnblogs.com/pinard/category/894694.html FastText模型进行文本分类 #coding = utf-8 #Author:Shanv #function: import pandas as pd import numpy as np import datetime import codecs impor...
2019-05-22 11:21:14 259 2
原创 007_NLP_Task5
朴素贝叶斯(naïve beyes) 原理: 见:https://blog.csdn.net/u013710265/article/details/72780520 利用朴素贝叶斯模型进行文本分类: #coding = utf-8 #Author:Shanv #function: import pandas as pd import numpy as np import datetime...
2019-05-20 19:44:59 233
原创 007_NLP_Task4 从one-hot到word2vec
word2vec word2vec 2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(Deep Learning)在自然语言处理中应...
2019-05-18 18:04:25 226
原创 007_NLP_Task3 特征选择
Task3 特征选择 TF-IDF概述 TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。 前面的TF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。关键是后面的这个IDF,即“逆文本频率”如何理解。在上一...
2019-05-15 22:21:55 194
原创 007_NLP_Task2
语言模型基本概念 见学习链接:https://www.cnblogs.com/Dream-Fish/p/3963028.html jieba分词 主要功能 1.分词 #1.分词 seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print("Full Mode: " + "/ ".join(seg_list)) # 全模式 seg...
2019-05-13 17:38:24 143
原创 007_NLP_Task1
数据集内容: #coding = utf-8 #Author:Shanv import pandas as pd import numpy as np import codecs import datetime from collections import Counter from prettytable import PrettyTable #数据集探索 def load_data(fi...
2019-05-11 20:29:31 142
原创 007_NLP_预备任务
TensorFlow 安装 之前已经安装好了,版本: Anoconda3 5.2.0 Python 3.6.5 CUDA 10.1 cuDNN 7.5 TensorFlow-gpu 1.12.0 TensorFlow基础 1.构建计算图 TensorFlow程序中,系统会自动维护一个默认的计算图,通过tf.get_default_graph函数可以获取当前默认的计算图。除...
2019-05-11 16:52:04 156
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人