我是一个小透明-CSDN博客

原创 Evaluating Robustness to Input Perturbations for Neural Machine Translation

作者提出了两种评估机器翻译鲁棒性的方法：Robustness和ConsistencyRobustness鲁棒性一般通过机器翻译质量来计算，假设我们有一个NMT模型M，将输入x翻译成y‘，然后把被干扰的输入xδx_\deltaxδ翻译成yδy_\deltayδ。翻译质量（TQ）通过参考译文y来计算：TQ(y,y’) 和TQ(yδy_\deltayδ,y)。TQ可以是任何质量计算标准，比如BLEU或者TER。以前的工作将噪声输入的TQ当作鲁棒性的指标。但是原始数据在捕捉模型对扰动的敏感程度也同样

2021-07-04 22:27:02 117

原创最大似然估计和最大后验估计

学习机器学习了好几年，好多概念也是学了就忘，MAP和MLE之间的关系也一直没搞清楚。这段时间终于可以静下心来好好理解，趁着还没忘，赶紧写下来。两大学派——频率学派 vs 贝叶斯学派频率学派——最大似然估计 Maximum Likelihood Estimation (MLE)贝叶斯学派——最大后验估计 Maximum A Posteriori (MAP)问题定义假设有一组独立同分布 i.i.d 的随机变量 X∼P(X∣θ)X\sim P(X|\theta)X∼P(X∣θ) ，服从概率分布P，参数为

2021-06-11 10:36:05 371

原创交叉熵损失函数

交叉熵损失函数是我们在机器学习分类任务中用的最多的损失函数，但是真正了解交叉熵损失需要理解它背后的信息论知识。信息量一条信息的信息量和它的不确定性有着直接的关系。如果我们要搞清楚一件非常不确定的事，就需要大量信息。相反，如果我们对这件事情已经有很多了解，那么就不需要很多信息。信息奠基人香农认为“信息是用来消除随机不确定的东西”，信息量就等于不确定性的多少。举个例子，假如在一场狼人杀游戏中，1号玩家有50%的概率是平民，有50%是狼人，我想知道1号玩家的身份，就需要询问预言家。如果预言家告诉我1号是狼人

2021-06-10 15:53:11 259

原创 Adversarial Deep Averaging Networks for Cross-Lingual Sentiment Classification

https://github.com/ccsasuke/adan作者提出了Adversarial Deep Averaging Network (ADAN)模型，将高资源的源语言标记数据迁移到低资源未标记数据。ADAN有两个不同的分支：一个sentiment classifier和一个adversarial language discriminator。这两个分支都将feature extractor学习的隐藏层表示作为输入，同时完成分类任务和跨语言不变任务。ADAN模型ADAN的核心假设就是，一

2021-03-13 13:18:44 436

原创 Cross-Lingual Unsupervised Sentiment Classification with Multi-View Transfer Learning

作者提出了一个multi-view encoder-classifier (MVEC)的情感分类模型，在无监督下只用两个语言的单语语料和源语言的标签。利用无监督机器翻译 (UMT)的encoder-decoder架构去约束和改善shared latent space。Methodology问题定义单语文本数据{Dsrc,Dsrc}\left\{D_{src},D_{src}\right\}{Dsrc,Dsrc} 和源语言子集{DsrcL,ysrcL}\left\{D^L_{src},y^L

2021-03-10 12:00:17 283

原创 Dual Learning for Machine Translation

https://github.com/yistLin/pytorch-dual-learning本文作者提出了对偶学习可以更高效的利用单语数据。利用这种对偶学习，单语数据可以扮演和平行语料一样的角色，同时减少训练阶段对平行语料的依赖。具体来说，翻译模型的对偶学习可以描述成以下两个agent的游戏。第一个agent只会A语言，他把一个用A语言写的信息通过有噪声的通道传给第二个agent，这个通道用翻译模型把A语言转换成B语言。第二个agent只会B语言，他收到了翻译成B语言的信息。接着他检查信息然后告

2021-03-10 09:25:08 210

原创 Find or Classify? Dual Strategy for Slot-Value Predictions on Multi-Domain Dialog State Tracking

传统的dst分为两类：ontology-based和ontology-free。ontology-based在工业界可能无法把所有ontology预定义出来，即使所有的ontology存在，遍历所有值计算开销很大。ontology-free无法解决当值没有出现在对话内容中，或者用户有好几种表达这种情况作者提出了DualStrategy Dialog State Tracking model (DS-DST)利用阅读理解方法，寻找span，融合ontology-based(p..

2021-03-03 15:30:04 302 1

原创 Emerging Cross-lingual Structure in Pretrained Language Models

Emerging Cross-lingual Structure in Pretrained Language Models探究是什么让跨语言预训练模型有跨语言的能力 Dissecting mBERT/XLM models领域相似性 domain similarity锚点 shared vocabulary (or anchor points)锚点是在两个语言训练语料中共同出现的相同字符串（identical strings），作为跨语言共享编码器在不同语言中的纽带。用code-swi

2021-03-03 10:36:12 190

weixin_41696015的博客