睡熊猛醒-CSDN博客

转载赛尔实验室新作：如何使用选择机制提升自注意力网络能力

给大家介绍一篇今天刚看到的“小巧精致”的paper，论文的核心思想就是在自注意力阶段加入了选择机制，使得自注意力更加集中，可以作为通用手段用于各种自注意力的模型中提升效果，值得一看。paper: https://www.aclweb.org/anthology/2020.acl-main.269.pdfcode:https://github.com/xwgeng/SSAN(2020-08-29日，还未放出）原文地址：https://mp.weixin.qq.com/s/lHGe_sQsxfV..

2020-08-29 23:04:54 1243

原创 Embedding-based Retrieval in Facebook Search：解读Facebook搜索中的召回技术

许久不见甚是想念，自从工作后就没有更新过博客，难得今天抽空把前两天看的一篇Facebook 发表在 KDD2020 的一篇关于社交网络搜索中的 embedding 检索问题的工作来分享一下，干货很多，尤其是负样本的选取真的是切中痛点，推荐一读。参考文献：1.https://arxiv.org/pdf/2006.11632.pdf2.https://mp.weixin.qq.com/s/VJSDSHW3CsY3b5Xx90FO2A3.https://mp.weixin.qq.com/s/V..

2020-08-29 12:03:32 1888

原创 Adam,AdamW,LAMB优化器原理与代码

参考文献：1.https://www.fast.ai/2018/07/02/adam-weight-decay/2.https://arxiv.org/pdf/1904.00962.pdf3.https://blog.csdn.net/weixin_43269174/article/details/106255084前言说到优化器，我们脑海中首先浮现的可能就是 Stochastic Gradient Descent （SGD）、Adaptive Gradient (AdaGrad)、Root Me

2020-06-28 20:28:18 12144

原创几种改进的embedding算法之代码实现

原理篇：https://blog.csdn.net/weixin_41089007/article/details/106604465前段时间写了一篇关于几种改进的embedding算法的代码

2020-06-17 11:55:01 1626 1

原创几种改进的embedding方法

最近看论文的时候发现好几篇改进词向量的小论文，方法虽然不复杂但是都挺有意思的，可能在工业界的某些任务上有奇效，分享一下~1.平均加权词向量paper：https://arxiv.org/abs/2002.05606方法先，分别用word2vec和glove计算出各个单词的词向量，后将其归一化：其中，d代表word2vec或者glove词向量的尺寸d1或d2，w是word2vec或glove算法输出的单词的向量，表示归一化的单词向量。然后将评论的评论向量r计算为标准化单词向量的平均值

2020-06-07 18:21:13 2841

原创 GPT-3：Language Models are Few-Shot Learners 论文解读

paper链接：https://arxiv.org/abs/2005.14165github链接：https://github.com/openai/gpt-3摘要通过对大量文本进行预训练，然后对特定任务进行微调，最近的工作证明了在许多NLP任务和基准方面的巨大收获。尽管在结构上通常与任务无关，但是此方法仍然需要特定于任务的微调数据集，该数据集包含成千上万个示例。相比之下，人类通常只能通过几个示例或简单的指令来执行新的语言任务——当前的NLP系统在很大程度上仍难以做到这一点。在这里，我们证明了扩

2020-06-02 17:43:31 20272 3

原创预训练模型性能提升策略及代码实战

写在前面自从BERT出现以来，越来越多的优秀的预训练模型如雨后春笋般层出不穷，这给我们处理NLP任务带来了极大的便利，身处这么一个时代，能随意使用这些预训练模型无疑是很舒适的一件事情，但是预训练模型的使用也有着不少技巧，一些好的模型策略甚至能带来显著意义上的性能提升。博主最近也是赋闲在家，闲来无事就去kaggle打了个情感抽取的比赛：Tweet-Sentiment-Extraction，刚好总结一下看到的一些提升性能的策略。主要参考文献：1.新手入门 Kaggle NLP类比赛总结：https:

2020-05-26 22:37:23 1333

原创 CORD-19数据集以及相关分析代码介绍

写在前面最近发现了一个有关新冠疫情的数公开据集，CORD-19。CORD-19是有关COVID-19和相关历史冠状病毒研究的不断增长的科学论文资源。 CORD-19旨在通过其丰富的元数据和结构化全文本来促进文本挖掘和信息检索系统的开发。自发布以来，CORD-19已下载超过75,000次，并已成为许多COVID-19文本挖掘和发现系统的基础。在本文中，我们描述了数据集构建的机制，重点介绍了挑...

2020-05-01 18:03:03 4557

原创使用未标注数据训练BERT

说来惭愧，BERT等预训练模型用来做下游任务做了这么久了，居然一直不知道怎么用未标注数据训练它们，这里以BERT为例子介绍一下如何使用自己的未标注数据快速训练预训练模型。其实也很简单，BERT的github上面就有：https://github.com/google-research/bert分为两步，第一步：准备一个txt文件，这个文件就是你要训练BERT的自己的数据。训练的目的其实就是...

2020-04-18 12:40:53 3526

原创 FastBERT：具有自适应推断时间的自蒸馏BERT

FastBERT: a Self-distilling BERT with Adaptive Inference Time写在前面：这是北大+腾讯+北师大的ACL2020。作者提出了一种新的inference速度提升方式，sample-wise adaptive mechanism，相比单纯的student蒸馏有更高的确定性，且可以自行权衡效果与速度，简单实用。这篇论文的方法可以说就是为了...

2020-04-10 17:26:59 2548 2

原创论文阅读笔记：《自然语言处理中的预训练模型》

Pre-trained Models for Natural Language Processing: A Survey写在前面：随着2018年ELMo、BERT等模型的发布，NLP领域进入了“大力出奇迹”的时代。采用大规模语料上进行无监督预训练的深层模型，在下游任务数据上微调一下，即可达到很好的效果。曾经需要反复调参、精心设计结构的任务，现在只需简单地使用更大的预训练数据、更深层的模型便...

2020-04-08 21:41:45 5427 1

翻译一些针对NLP深度学习的最佳实践技巧

首先声明，这篇文章并不是要跟踪最新技术，而是要收集与广泛任务相关的最佳实践。换句话说，该文章不是描述一个特定的体系结构，而是旨在收集构成成功的体系结构的功能。尽管这些功能中的许多功能对于推动最新技术最有用，但我希望对它们的广泛了解将导致更强大的评估，与基准的更有意义的比较以及通过塑造我们对工作原理的直觉而获得启发。词嵌入词嵌入的最佳维数主要取决于任务：较小的维数对语法较多的任务（如命名实体...

2020-01-03 10:36:09 676

原创斯坦福NLU笔记之情感分析

1.情绪分析的一般实用技巧分词介绍了三种分词：Whitespace tokenizer, 就是空格分词。Treebank tokenizer, 斯坦福大学的树状分词。Sentiment-aware tokenizer, 情感感知分词器，隔离表情符号，使用基础标记，在看起来有意义的地方保留大写... ...（A good start: nltk.tokenize.casual.T...

2020-01-02 16:14:51 700

原创使用BERT进行情感分析

年前最后一篇，就写个自己使用BERT的流程步骤，提前祝大家新年快乐~## STEP1：构建模型class Config(object): """配置参数""" def __init__(self, dataset): self.model_name = 'bert' self.train_path = dataset + '/data/tr...

2019-12-28 21:35:19 4042 6

原创 ERNIE的掩码机制代码解析

我们知道，相较于BERT，ERNIE最大的改进就是中文 + 短语/实体掩码（这个短语掩码的操作后来也被BERT采用训练出了WWM-BERT），所以我们首先来看看ERNIE的掩码机制是怎么样实现的。构建序列与标记分词边界信息这一步的输出是一个 txt 文件：每个样本由5个 ‘;’ 分隔的字段组成，数据格式:token_ids; sentence_type_ids; position_...

2019-12-22 21:33:31 1778

翻译 ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 论文翻译

文前总结：ERNIE2.0的亮点：1.融合了持续学习（continual Learning）、多任务学习、知识引入等多种套路。2.构造的任务可以分为三类：1) word-aware tasks用于教模型捕捉词汇信息（lexical information）；2) structure-aware task教模型捕捉句法信息（syntactic information）；3) semant...

2019-12-21 21:39:46 1497

翻译 ERNIE: Enhanced Representation through Knowledge Integration（百度）论文翻译

paper：https://arxiv.org/pdf/1904.09223.pdfcode：https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE文前总结ERNIE相比于BERT，做出了如下改进：1.mask策略。BERT只使用了字级别的随机masking，但是ERNIE使用了字、实体、短语三个级别的masking，旨在使模...

2019-12-21 10:54:02 3990

翻译 Smaller, faster, cheaper, lighter: Introducing DistilBERT, a distilled version of BERT 翻译

paper:https://arxiv.org/pdf/1910.01108v2.pdfcode:https://github.com/huggingface/transformersTime: 2019.10在过去的18个月中，在过去的18个月中，几乎所有的自然语言处理任务都从大型语言模型进行迁移学习这一方式达到了SOTA效果。通常基于Vaswani等人的Transformer体...

2019-12-15 22:20:33 677

原创 FastText原理以及pytorch简单实现

paper:https://arxiv.org/pdf/1607.01759v3.pdfcode:https://github.com/facebookresearch/fastTextTime：2017.051.FastText的原理fastText 方法包含三部分：模型架构、层次 Softmax 和 N-gram 特征。fastText 模型输入一个词的序列（一段文本或...

2019-12-15 16:37:09 4253 2

原创《半监督文本分类的对抗训练方法》理解笔记

paper:https://arxiv.org/pdf/1605.07725v3.pdfcode:https://github.com/tensorflow/models/tree/master/research/adversarial_textTime: 2016.050.摘要对抗训练提供了一种正规化监督学习算法的方法，而虚拟对抗训练能够将监督学习算法扩展到半监督环境。但是...

2019-12-14 10:59:55 1409

转载从离散到分布，盘点常见的文本表示方法

自然语言处理（NLP）的一些常见任务有：文本分类、指代消歧、自动摘要、机器翻译、主题识别等。传统的处理方法是基于规则的，现在更倾向于使用机器学习或深度学习的方法解决。那么如何在计算机中表达一段文本/一个词的意思呢？第一步必然是将这些语言特征转化为量化的表达方式。本篇文章总结一下NLP中常用的文本特征表示方式，并提供实际案例和代码实现，用于解决文本分类问题。1. 离散表示（Discrete Re...

2019-12-11 15:56:57 1983 1

翻译 Effective Use of Word Order for Text Categorization with Convolutional Neural Networks

卷积神经网络有效地利用词序进行文本分类(2015年)code:https://github.com/tensorflow/models/tree/master/research/sentiment_analysis(但是这份代码只是简单实现了parallel CNN，并没有实现seqCNN和bowCNN，聊胜于无）摘要卷积神经网络（CNN）是可以利用数据的内部结构（例如图像数据的2D结...

2019-12-11 10:50:11 316 1

原创油气层识别文献调研

1.宋国宁,齐继光,张士杰,杨淮清,伊广林,吴付东,吴金丽,吕健儒.知识表达语言(NFA)及其在石油测井解释专家系统中的应用[J].信息与控制,1987(02):12-17.石油测井解释的任务是：首先把测井数据（如地层的电阻率、自然电位、声波时差等等）转化为地质信息（如岩性、泥质含量、孔隙度、渗透率、含油饱和度等等），再参照地质观察，最后给出油气水的综合评价。在解释过程中, 解释人员不仅要...

2019-10-23 19:19:36 557

原创神经网络Batch size，Iteration，Epoch的理解

Batch size：一次放入模型训练的样本数，batch_size将影响到模型的优化程度和速度。为什么要有batch size：batch size的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。相对于正常数据集，如果Batch_Size过小，训练数据就会非常难收敛，从而导致underfitting。增大Batch_Size，相对处理速度加快，所需内存容量增加（epoch的次数...

2019-10-14 10:35:14 982

转载 tf.clip_by_value用法

2019-10-12 09:07:55 445

原创 Pytorch实现dot/mlp attention

国庆节疯玩了7天，感觉整个人已经成为一条咸鱼了，在上班前一晚把attention机制复习了一下，就当是收收心了（感到羞愧）。首先实现一些函数，称为attention_utils.pyimport numpy as npimport torchimport torch.nn.functional as Fdef create_src_lengths_mask(batch_size...

2019-10-07 21:59:16 3201 2

翻译 Get To The Point：Summarization with Pointer-Generator Networks 论文笔记

摘要神经序列到序列模型为抽象文本摘要提供了一种可行的新方法（这意味着它们不仅限于从原始文本中简单选择和重新排列段落）。但是，这些模型有两个缺点：它们易于错误地再现事实细节，并且倾向于重复自己。在这项工作中，我们提出了一种新颖的体系结构，该体系结构以两种正交方式增强了标准序列间注意模型。首先，我们使用混合指针生成器网络，该网络可以通过pointing从源文本中复制单词，这有助于准确地复制信息...

2019-09-22 11:11:17 661

原创 Data2Text文本生成演化之路

最近看了很多这方面的论文，尝试做个总结。早期发展路线早期的文本生成系统多是基于规则的，Reiter等对规则系统进行了归纳总结【1】，认为文本生成系统可以分为三个较为独立的模块：（1）内容规划（Content planning），即选择描述哪些数据记录或数据域；（2）句子规划（Sentence planning），即决定所选择的数据记录或数据域在句子中的顺序；（3）句子实现（Surface ...

2019-09-20 17:31:44 4919 2

翻译 End-to-End Content and Plan Selection for Data-to-Text Generation 论文笔记

摘要学习使用神经网络从结构化数据生成流畅的自然语言已成为NLG的常用方法。当结构化数据的形式在示例之间变化时，该问题可能是具有挑战性的。本文介绍了序列到序列模型的几种扩展的调查，以考虑潜在内容选择过程，特别是拷贝注意力机制和覆盖解码的变体。我们进一步提出了一种基于多种集成的训练方法，以鼓励模型在训练期间学习不同的句子模板。对这些技术的实证评估表明，生成的文本质量在五个自动度量标准以及人...

2019-09-20 16:56:17 475

翻译 Bootstrapping Generators from Noisy Data 论文笔记

摘要统计数据到文本生成的核心步骤涉及结构化数据表示和相关文本之间的学习对应关系。在本文中，我们的目标是从大规模数据集中引导生成器，其中数据和相关文本松散地对齐。我们通过引入专用内容选择机制来应对这一具有挑战性的任务。我们使用多实例学习来自动发现数据和文本对之间的对应关系，并展示如何在训练编码器 - 解码器架构时使用这些对应来增强内容信号。实验结果表明，使用内容特定目标训练的模型改进了标准...

2019-09-16 16:09:43 289

翻译 Data-to-Text Generation with Content Selection and Planning 阅读笔记

原文：https://arxiv.org/pdf/1809.00582.pdf代码：https://github.com/ratishsp/data2text-plan-pyAbstract数据到文本生成的最新进展已经导致使用大规模数据集和神经网络模型，这些模型是端到端训练的，没有明确地模拟说什么和按什么顺序。在这项工作中，我们提出了一个神经网络架构，其中包含内容选择和规划，而不会牺...

2019-09-12 15:34:51 1974 1

原创 Key Fact as Pivot: A Two-Stage Model for Low Resource Table-to-Text Generation 论文代码解析

1.数据处理部分原始文本处理table2entity2text.py举例：原始数据的一个句子键值对name_1:walter name_2:extra image:<none> image_size:<none> caption:<none> birth_name:<none> birth_date_1...

2019-08-22 17:21:59 406 3

翻译 Key Fact as Pivot: A Two-Stage Model for Low Resource Table-to-Text Generation 论文翻译

以关键事实为枢轴：一种两阶段的低资源的表格到文本生成模型摘要表到文本生成旨在将结构化数据转换为非结构化文本。大多数现有方法采用编码器 - 解码器框架来学习转换，这需要大规模的训练样本。然而，缺乏大并行数据是许多领域的主要实际问题。在这项工作中，我们考虑低资源表到文本生成的情况，其中只有有限的并行数据可用。我们提出了一种新的模型，将这一代分为两个阶段：关键事实预测(key fact ...

2019-08-09 15:13:23 784 5

原创秋招面试复习-自然语言处理

1.Word2Vec中skip-gram是什么,Negative Sampling怎么做word2vec通过学习文本然后用词向量的方式表征词的语义信息，然后使得语义相似的单词在嵌入式空间中的距离很近。Skip-gram是给定单词来预测上下文，CBOW就相反。Negative Sampling是对于给定的词，并生成负采样词集合的一种策略。已知有一个词,这个词可以看做一个正例,而它的上下文词集可以...

2019-08-03 22:50:29 367

原创秋招面试复习——深度学习

1.BN（Batch Normalization)算法作用神经网络学习过程本质就是为了学习数据分布，一旦训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；另外一方面，一旦每批训练数据的分布各不相同(batch 梯度下降)，那么网络就要在每次迭代都去学习适应不同的分布，这样将会大大降低网络的训练速度，这也正是为什么我们需要对数据都要做一个归一化预处理的原因。 BN的作用是通过规范化的手...

2019-07-29 23:51:37 673 2

原创秋招面试题复习——机器学习

目录：1.LR的推导，损失函数2.逻辑回归怎么实现多分类3.SVM中核函数选择?4.SVM使用对偶计算的目的是什么，如何推出来的，手写推导5.生成模型和判别模型基本形式，有哪些？6.SVM的损失函数7.ID3,C4.5和CART三种决策树的区别8.L1和L2正则化的区别9.知道哪些机器学习模型10.LDA原理11.KMeans算法讲讲，有什么缺点，K怎么...

2019-07-29 23:36:53 2289

转载 EM算法详细推导（最详细版本！）

原文链接：https://blog.csdn.net/weixin_38206214/article/details/814319321.前置知识极大似然函数和极大似然估计假设总体的概率函数为 p(x ; θ)，其中 θ 是一个未知参数或几个未知参数组成的参数向量，属于取值的参数空间。 x1, x2 ... xn是来自该总体的样本，将样本的联合概率函数表示为 θ 的函数：设 ...

2019-07-24 23:20:24 4148 1

原创 XGBoost vs. LightGBM （秋招面试复习）

1.XGBoost详解XGboost模型简介XGboost是一个监督模型，基模型是一堆CART树。xgboost为什么使用CART树而不是用普通的决策树呢？简单讲，对于分类问题，由于CART树的叶子节点对应的值是一个实际的分数，而非一个确定的类别，这将有利于实现高效的优化算法。xgboost出名的原因一是准，二是快，之所以快，其中就有选用CART树的一份功劳。知道了xgboost的模型...

2019-07-23 23:20:48 1216

原创 RNN结构，双向LSTM，Transformer， BERT对比分析

最近接到一些秋招面试，发现自己对于好多网络结构都模糊了，刚好最近在调研模型，就趁这个机会把之前的常见模型知识梳理一下。主要参考文档：https://jalammar.github.io/illustrated-transformer/https://blog.csdn.net/jojozhangju/article/details/519822541.Recurrent Neura...

2019-07-19 10:01:56 24841 1

原创 Pragmatically Informative Text Generation 论文理解（附代码）

原文地址：https://arxiv.org/pdf/1904.01301v2.pdfGithub代码：https://github.com/sIncerass/prag_generation摘要我们使用计算语用学技术改进了条件文本生成模型的信息量。这些技术将语言生成形成为说话者和听众之间的游戏，其中说话者应该生成输出文本，听者可以使用该输出文本来正确识别文本描述的原始输入。虽然这...

2019-07-19 09:49:58 870

空空如也

空空如也