自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

qq_35170217的博客

读自然语言处理相关论文的笔记

  • 博客(5)
  • 收藏
  • 关注

原创 一个通用的用于NLP数据处理的开源库

目录1、引言2、安装3、快速使用3.1、查看支持的数据集3.2、加载数据集3.3、微调BERT模型3.3.1、tokenizing数据集3.3.2、格式化数据集4、总结与展望1、引言  作为NLP领域的研究者来说,特别是对需要发论文的学生或搞研究的专家来说,每次处理数据集是很麻烦的事情。大部分研究使用的数据集都是公开的,有些数据处理过程是通用的,而我们一直都在重复造轮子。如果有一个开源库专门用来管理NLP领域的公开研究数据集,那么我们在发论文的时候就会快人一步,至少缩短发论文的周期。  Hugging

2021-03-18 21:33:14 895

原创 自然语言处理管道

自然语言处理管道1 引言2 数据采集2.1 使用公开的数据集2.2 使用爬虫爬取数据2.3 产品的干预2.4 数据增强2.4.1 同义词替换2.4.2 反向翻译2.4.3 基于TF-IDF的词替换2.4.4 替换实体2.4.5 向数据中添加噪音2.4.6 其它2.5 文本提取和清洗2.5.1 字符编码规范化2.5.2 拼写校对3 预处理3.1 预热3.2 高频处理步骤3.2 其它步骤3.2.1 文本标准化3.2.2 语言检测3.3 高级处理步骤4 特征工程5 建模6 评估7 部署8 模型监控与更新总结1

2021-01-23 14:46:36 336

原创 条件随机场在命名实体识别任务中的应用

条件随机场在命名实体识别任务中的应用0 引言1 条件随机场用于标注问题1.1 当前的方法在标注问题中有什么缺陷1.2 如何改进或者缓解这种缺陷2 以命名实体识别为例3 CRF解决NER问题的主要过程4 CRF中的特征函数4.1 特征函数是什么4.2 特征函数举例4.3 CRF++工具的使用总结参考文献0 引言  第一次接触条件随机场(简称CRF)是在做自然语言处理(简称NLP)中的命名实体识别(简称NER)任务,当时用的模型是非常流行的LSTM+CRF结构,实验效果也比较好,就目前而言,你可以将架构

2021-01-19 22:33:54 708

原创 为什么深度学习没有成为自然语言处理的银弹?

前言  最近在看一些外文文章,遂记录于此。  目前(2021.1.18),在学术界,深度学习技术刷新了自然语言处理的各项任务记录,集万千宠爱于一身,特别是基于Transformers模型的其它改进模型。这些模型首先在"超大"数据集上进行预训练,然后用于下游任务。Transformer模型在其它领域的应用效果也比较好,大有一统江湖的气势(哈哈哈,开玩笑),例如语音,图像领域等。  虽然深度学习在NLP上取得了巨大的成功,但当用在工业级的应用上时,并没有成为NLP任务的银弹。主要由以下几个关键原因导致(从

2021-01-18 11:35:47 289

原创 ALBERT论文阅读: 一种轻量级的BERT

ALBERT论文阅读: 一种轻量级的BERT1、作者动机2、模型具体细节2.1、模型的结构2.2、分解嵌入参数2.2、跨层参数共享1、作者动机  动机就是原始的BERT模型太大,训练时间太久。作者希望能够将原始的bert模型轻量化。  在BERT模型出来后,很多人也意识到这个问题,提出了各种各样的解决方案。对于BERT模型训练速度的问题有的方案是使用分布式训练,但是分布式训练有个问题:在分布式训练中,训练速度也会受到很大的影响,因为通信开销与模型中参数的数量成正比。当然了,还有人使用蒸馏技术来缩小原始

2020-10-21 16:53:42 304

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除