自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Evaluating Robustness to Input Perturbations for Neural Machine Translation

作者提出了两种评估机器翻译鲁棒性的方法:Robustness和ConsistencyRobustness鲁棒性一般通过机器翻译质量来计算,假设我们有一个NMT模型M,将输入x翻译成y‘,然后把被干扰的输入xδx_\deltaxδ​翻译成yδy_\deltayδ​。翻译质量(TQ)通过参考译文y来计算:TQ(y,y’) 和TQ(yδy_\deltayδ​,y)。TQ可以是任何质量计算标准,比如BLEU或者TER。以前的工作将噪声输入的TQ当作鲁棒性的指标。但是原始数据在捕捉模型对扰动的敏感程度也同样

2021-07-04 22:27:02 117

原创 最大似然估计和最大后验估计

学习机器学习了好几年,好多概念也是学了就忘,MAP和MLE之间的关系也一直没搞清楚。这段时间终于可以静下心来好好理解,趁着还没忘,赶紧写下来。两大学派——频率学派 vs 贝叶斯学派频率学派——最大似然估计 Maximum Likelihood Estimation (MLE)贝叶斯学派——最大后验估计 Maximum A Posteriori (MAP)问题定义假设有一组独立同分布 i.i.d 的随机变量 X∼P(X∣θ)X\sim P(X|\theta)X∼P(X∣θ) ,服从概率分布P,参数为

2021-06-11 10:36:05 371

原创 交叉熵损失函数

交叉熵损失函数是我们在机器学习分类任务中用的最多的损失函数,但是真正了解交叉熵损失需要理解它背后的信息论知识。信息量一条信息的信息量和它的不确定性有着直接的关系。如果我们要搞清楚一件非常不确定的事,就需要大量信息。相反,如果我们对这件事情已经有很多了解,那么就不需要很多信息。信息奠基人香农认为“信息是用来消除随机不确定的东西”,信息量就等于不确定性的多少。举个例子,假如在一场狼人杀游戏中,1号玩家有50%的概率是平民,有50%是狼人,我想知道1号玩家的身份,就需要询问预言家。如果预言家告诉我1号是狼人

2021-06-10 15:53:11 259

原创 Adversarial Deep Averaging Networks for Cross-Lingual Sentiment Classification

https://github.com/ccsasuke/adan作者提出了Adversarial Deep Averaging Network (ADAN)模型,将高资源的源语言标记数据迁移到低资源未标记数据。ADAN有两个不同的分支:一个sentiment classifier和一个adversarial language discriminator。这两个分支都将feature extractor学习的隐藏层表示作为输入,同时完成分类任务和跨语言不变任务。ADAN模型ADAN的核心假设就是,一

2021-03-13 13:18:44 436

原创 Cross-Lingual Unsupervised Sentiment Classification with Multi-View Transfer Learning

作者提出了一个multi-view encoder-classifier (MVEC)的情感分类模型,在无监督下只用两个语言的单语语料和源语言的标签。利用无监督机器翻译 (UMT)的encoder-decoder架构去约束和改善shared latent space。Methodology问题定义单语文本数据{Dsrc,Dsrc}\left\{D_{src},D_{src}\right\}{Dsrc​,Dsrc​} 和源语言子集{DsrcL,ysrcL}\left\{D^L_{src},y^L

2021-03-10 12:00:17 283

原创 Dual Learning for Machine Translation

https://github.com/yistLin/pytorch-dual-learning本文作者提出了对偶学习可以更高效的利用单语数据。利用这种对偶学习,单语数据可以扮演和平行语料一样的角色,同时减少训练阶段对平行语料的依赖。具体来说,翻译模型的对偶学习可以描述成以下两个agent的游戏。第一个agent只会A语言,他把一个用A语言写的信息通过有噪声的通道传给第二个agent,这个通道用翻译模型把A语言转换成B语言。第二个agent只会B语言,他收到了翻译成B语言的信息。接着他检查信息然后告

2021-03-10 09:25:08 210

原创 Find or Classify? Dual Strategy for Slot-Value Predictions on Multi-Domain Dialog State Tracking

传统的dst分为两类:ontology-based和ontology-free。ontology-based在工业界可能无法把所有ontology预定义出来,即使所有的ontology存在,遍历所有值计算开销很大。ontology-free无法解决当值没有出现在对话内容中,或者用户有好几种表达这种情况作者提出了DualStrategy Dialog State Tracking model (DS-DST)利用阅读理解方法,寻找span,融合ontology-based(p..

2021-03-03 15:30:04 302 1

原创 Emerging Cross-lingual Structure in Pretrained Language Models

Emerging Cross-lingual Structure in Pretrained Language Models探究是什么让跨语言预训练模型有跨语言的能力 Dissecting mBERT/XLM models领域相似性 domain similarity锚点 shared vocabulary (or anchor points)锚点是在两个语言训练语料中共同出现的相同字符串(identical strings),作为跨语言共享编码器在不同语言中的纽带。用code-swi

2021-03-03 10:36:12 190

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除