- 博客(4)
- 收藏
- 关注
原创 NRC词典应用实例——英文文本情感分析
本文在基于NRC词典的情感分析(含多种离散情绪)——python基础上创作,原文章对中文文本进行结巴分词,然后与词典进行匹配。在作者实际使用过程中,由于需要使用到英文的原始数据,因此,将中文文本预处理部分和后续处理部分进行更改完善,以适应英文文本。情绪和情感词典 是由加拿大国家研究委员会(简称NRC)的专家创建,因此也称为NRC词典。该词典具有广泛的应用程序开发,可以在多种环境中使用,例如情绪分析,产品营销,消费者行为,甚至是政治活动分析。词典中包含了多种语言的词汇情感值,其中就包括英文和中文,本文将使
2022-03-05 11:25:42 3797
原创 文本数据的批量处理方法2
文本数据的批量处理在第一篇博客“Dataframe中的字符串处理”中有提到,简单回顾一下,需要先将Dataframe中一列文本提取出来,然后使用下标的方式访问每一个元素。今天在学习的时候学到了另一种方法,如下:假设我们要对一列文本数据做一个简单的情感分析,并把生成的数值作为新的一列添加在原本数据集之后。首先定义一个函数:def get_sentiments(text): s = SnowNLP(text) return s.sentiments然后:data["sentiment"
2020-12-15 16:31:31 366
原创 字符串类型转换
今天在处理数据的时候,像上一篇博客中写到的,我正是使用了.values的方式提取出了字符串内容,然后继续后续的操作,但是当我写进for函数中时,运行程序还是给我报了错。原始代码如下:title=data["字段1_文本"].values#去除无效数据特殊符号re_move=[",","。","?","!","\n","\xa0"," ","《","》",":","、","【","】"]title_words=[]for i in range(0,1000): for j in re_m
2020-12-14 18:58:27 418
原创 我的第一篇博客-Dataframe中的字符串处理
近几天需要处理数据,遇到了字符串处理的问题,字符串是最常见的一种数据格式,但是在应用的时候才发现自己的掌握不够熟练,因此写下博客以备日后之需。首先,需要注意我们学过的字符串处理方法都是针对一个“字符串”来进行的。这句话的意思是:a="hello word!"可以直接对a进行处理,但往往我们直接读入表格数据后数据的展现形式是这样的:这种时候需要先将想要处理的文本列拿出,再将这一列中的文本值拿出,才能一个一个进行处理。不能在列的基础上对字符串进行处理!!!...
2020-12-11 10:16:41 1516
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人