自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(2)
  • 问答 (2)
  • 收藏
  • 关注

原创 emoji数据清洗

在对微博等文本数据进行处理的时候发现以往的颜文字之外还会抓取到emoji数据,这部分虽然可以匹配到,但是经常挂一漏万。在网上检索到有一个emoji库可以使用。直接pip安装emoji库import emojiimport redef filter_emoji(desstr,restr=''): #过滤表情 try: co = re.compile(u'[\U00010000-\U0010ffff]|\u200b') except re.

2021-10-31 11:06:29 606

原创 LTP4+句法依存可视化

修改自博客NLP(十二)依存句法分析的可视化及图分析_山阴少年-CSDN博客  依存句法分析的效果虽然没有像分词、NER的效果来的好,但也有其使用价值,在日常的工作中,我们免不了要和其打交道。笔者这几天一直在想如何分析依存句法分析的结果,一个重要的方面便是其可视化和它的图分析。  我们使用的NLP工具为jieba和LTP,其中jieba用于分词,LTP用于词性标注和句法分析,需要事件下载pos.model和parser.model文件。  本文使用的示例句子为:2...https://blog.csdn

2021-10-25 20:50:07 926 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除