自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 NLP常见任务小记

根据判断主题的级别, 将所有的NLP任务分为两种类型: 1.token-level task: token级别的任务. 如完形填空(Cloze), 预测句子中某个位置的单词; 或者实体识别; 或是词性标注; SQuAD等. 2.sequence-level task: 序列级别的任务, 也可以理解为句子级别的任务. 如情感分类等各种句子分类问题; 推断两个句子的是否是同义等. token-level task Cloze task 即BERT模型预训练的两个任务之一, 等价于完形填空任务, 即给出句子中其他

2020-07-25 18:58:32 159

原创 NLP一般流程小记

NLP一般流程小记 1.获取语料 语料,是NLP任务所研究的内容,通常用一个文本集合作为语料库(Corpus)来源:已有语料,积累的文档, 下载语料 2. 语料预处理 1)语料清洗:留下有用的,删掉噪音数据 常见的数据清洗方式:人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。 2)分词:将文本分成词语 常见的分词算法:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法 3) 词性标注:给词语打词类标签,如形容

2020-07-20 17:22:47 237

原创 动手学深度学习笔记03

动手学深度学习笔记03 图像增强 大规模数据集是成功应用深度神经网络的前提。图像增广(image augmentation)技术通过对训练图像做一系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模。图像增广的另一种解释是,随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。 首先,导入实验所需的包或模块。 %matplotlib inline import t...

2020-02-25 15:53:48 128

原创 动手学深度学习笔记2

模型过拟合与欠拟合 首先我们需要区分训练误差和泛化误差。一般来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数,例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。 记录一下模型训练中经常出现的两类典型问题:一类是模型无法得到较低的训练误差,我们...

2020-02-18 14:49:18 170

原创 伯禹课程 动手学深度学习笔记1

伯禹课程 动手学深度学习笔记1 深度学习模型实现的一般流程记录 1.首先,导入本节中实验所需的包或模块 %matplotlib inline import torch from IPython import display from matplotlib import pyplot as plt import numpy as np import random 2.生成数据集 构造一个简单的人工...

2020-02-14 16:09:04 138

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除