马尚先生-CSDN博客

文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程，其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为：（1）预处理：将原始语料格式化为同一格式，便于后续的统一处理；（2）索引：将文档分解为基本处理单元，同时降低后续处理的开销；（3）统计：词频统计，项（单词、概念）与分类的相关概率；（4）特征抽取：从文档中抽取出反映文档主题的特征；（5）分类器：分类器的训练；（6）评价：分类器的测试结果分析。

2020-01-15

kaggle竞赛使用的数据，里面包括训练和测试数据集

Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆（Anthony Goldbloom）2010年在墨尔本创立的，主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台由于举办多种领域的数据分析、机器学习竞赛，具有很多有价值的数据集可供下载。Kaggle 的数据集很难下载，这里提供了一个文本分类的数据集，供大家使用。

2020-01-15

用于自然语言处理中的NLTK模块快速安装，第二部分

使用Anaconda环境下，可以直接使用activate + 环境名的方式切到要安装nltk的环境下，然后使用conda install nltk进行安装，如果只是普通的python方式，则是可以使用pip install命令。当然，NLTK最麻烦的是它的使用需要一些较大的数据包，如果对自己的网速有信心，可以直接在切到安装环境后，使用python命令进入到python环境中，输入: import nltk nltk.download() 找到路径改名称

2020-01-11

用于自然语言处理中的NLTK模块快速安装

使用Anaconda环境下，可以直接使用activate + 环境名的方式切到要安装nltk的环境下，然后使用conda install nltk进行安装，如果只是普通的python方式，则是可以使用pip install命令。当然，NLTK最麻烦的是它的使用需要一些较大的数据包，如果对自己的网速有信心，可以直接在切到安装环境后，使用python命令进入到python环境中，输入: import nltk nltk.download() 找到路径改名称

2020-01-06

weixin_41956783的博客

原创 Python 之 Pandas 库使用教程

原创 Python Learning

日常的总结资料，用于巩固知识

kaldi 手把手教学，快速的进行语音识别入门开发

可用于FAQ问答系统的语料集

情感分析实例教程，python实现

文本分类相关程序和数据，包括TextCNN RNN CRF等

深度学习命名实体识别数据

机器学习sklearn 和tensorflow 的资料总结

BERT中文情感分类开源项目

Mnist 数据代码范例

唐诗生成训练数据适用于LSTM 模型

CNN训练数据_文本分类数据

RNN训练数据_文本分类数据集

深度学习资料库和DeepLearning使用工具

Kmean电影简介聚类数据

kaggle竞赛使用的数据，里面包括训练和测试数据集

用于自然语言处理中的NLTK模块快速安装，第二部分

用于自然语言处理中的NLTK模块快速安装

空空如也