眯眼看云~\/~-CSDN博客

原创 Tfidf计算

Tfidf计算主要内容读取全部评论与词频构成的xls文档读取对评论初步分词后的文档和停用词txt文档将每条评论的词汇与词频输出为字典形式，同时每条评论整体输出为一个列表元素（方便后续构造稀疏矩阵）计算各词语的tf-idf值并输出到xls文档具体实现读取评论文档，并分词、统计词频将分词后的词语与频数输出为字典格式import xlrdimport thulacimport xlwtimport numpy as npfrom sklearn.feature_extractio

2020-07-25 13:54:14 462 3

转载文本特征提取方法介绍

一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含

2020-06-09 19:34:39 8632

转载 python中文分词介绍

一、jieba分词1、精确模式（默认）：试图将句子最精确地切开，适合文本分析；seg = jieba.cut(“这是一段中文字符”, cut_all = False)不加cut_all 为默认的精确模式2、全模式，把句子中所有的可以成词的词语都扫描出来，但是不能解决歧义；seg = jieba.cut(“这是一段中文字符”, cut_all = True)3、搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。seg =j

2020-06-04 11:28:05 1016

theme-bymyself.zip

黑色模式的主题，以蓝色和绿色为主，不时有点骚粉色下载后，找到自己vscode安装目录下，打开.\Microsoft VS Code\resources\app\extensions文件夹，解压后，在VScode主题设置页面勾选即可使用

2020-07-10

空空如也

TA创建的收藏夹 TA关注的收藏夹