自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (13)
  • 收藏
  • 关注

原创 nlp小样本实践

小样本是个工业界是个广泛存在的问题,领域内相关研究也非常多,不过众多研究未必都可以经受住业务的考验,本文主要结合工作业务探索一下相关技术的收益情况, 所选择的任务为文本分类,模型采用Roberta。

2022-09-29 21:20:26 797 1

原创 sense_embeddings

1. Introduction​ word Embedding方式虽然在很多NLP任务中都已经成为标配,但是这种方法不能很好的区分一词多义(polysems),因此近年来有很多关于Sense Embedding的研究。sense embedding技术要解决的一个突出问题就是meaning conflation deficiency,它希望通过直接建模单词的不同含义来缓解这种缺陷。目前,关于这个技术,有两种方向:unsupervised&knowledge-based。meaning conf

2021-09-30 14:23:40 192

原创 sense_embeddings

1. Introduction​ word Embedding方式虽然在很多NLP任务中都已经成为标配,但是这种方法不能很好的区分一词多义(polysems),因此近年来有很多关于Sense Embedding的研究。sense embedding技术要解决的一个突出问题就是meaning conflation deficiency,它希望通过直接建模单词的不同含义来缓解这种缺陷。目前,关于这个技术,有两种方向:unsupervised&knowledge-based。meaning conf

2021-09-29 15:45:00 263

原创 2020-06-05-pytorch调参

1. 学习率​  非常重要,设得太大,模型会发散,直接崩了;过小,则一直震荡,无法跳出局部最优解。看这里来通过一定的手段学习最佳学习率。def find_lr(init_value = 1e-8, final_value=10., beta = 0.98): num = len(trn_loader)-1 mult = (final_value / init_value) ** (1/num) lr = init_value optimizer.param_group

2021-09-29 10:47:28 870

原创 聊聊chatbot那些事

1. 生活中的chatbot​ 现在社会,随着AI的迅猛发展,各种新技术层出不穷,大大改变了我们的生活,其中,有很多技术已经走入了我们的日常生活,比如CV领域的人脸识别 ,NLP 领域的智能助手等。本次,我们就来聊聊智能助手中会涉及到的技术,也就是chatbot。​ chatbot,其实是有很多分类的,目前,最常见的是把它分为一下几类:Chit-Chat-oriented Dialogue Systems: 闲聊型对话机器人,产生有意义且丰富的回复。Task-oriented: 任务驱动类,

2021-09-29 10:46:26 2774

原创 RNN中的Teacher Forcing

1. 什么是Teacher Forcing​ Teacher Forcing(下面简称tf)是一种快速有效地训练递归神经网络模型的方法,这个方法名字听着很高端,其实应用非常简单,就是使用上一时间步的输入的groud truth作为输入,而取代了真实的目标输入。该技术广泛使用在了机器翻译,文本摘要,图像描述( image captioning)等,在训练递归网络时,tf可以加快模型的收敛速度以及提升模型的不稳定性。2.序列预测问题​ 我们实际生活中的很多问题都是序列问题,就拿我们熟悉的机器翻译来说,它对

2021-09-29 10:45:42 856

原创 文本生成评价指标串串烧

1. 前言​ 语言与图像,作为当前AI领域的两大热门方向,吸引了无数研究人员的目光。相比于图像,语言有简单易得,数据易于收取,存储空间低等优点,不过,由于语言本身的特性,他还有时序复杂,句式多变等缺点,带来的后果就是相比于CV领域的迅猛发展,nlp的发展好像差了点意思。不过,随之近年来以transformer为开端的技术的发展,nlp也迎来了自己的大发展,尤其是随着1700亿参数的GPT-3的开源,其生成的文本的质量达到了惊人的地步(缺陷就是,该模型太大了,远非一般公司所能承受)。这就引出了我们想讨论的内

2021-09-29 10:45:01 622

原创 多轮对话模型漫游

1. 基于问答对的模型的缺陷 基于问答对的chatbot我们已经讨论过,不过,这种简单的模型用来玩玩是可以的,真要是更强的场景是不适用的,因为实际场景中,我们的对话轮次是多轮的,比如下面的对话场景:“哪家餐馆好吃?”“你想吃什么口味呢?”“火锅吧!”“好的,为你挑选一下火锅店…”… 上面的场景需要多次的对话才能确定意图,其意图的确定也是有依赖关系的,而简单的问答对则显然不会捕捉到这种依赖关系,所以其表达能力也弱。 现在,是时候进入更高层次的chatbot中了!2. 多轮对话​  多轮

2021-09-29 10:44:22 1162

原创 用于提升多样性的Maximum Mutual Information算法

MMI:Maximum Mutual Information1. 背景​ 在传统的seq2seq领域,多样性问题一直是个令人困扰的问题,一个典型的例子就是bot领域,在回答的时候容易生成一些非常safe,grammatical的reply,比如“呵呵”,“I don’t know”之类,这些回答可以顺应人们的问题,但是基本没有太多实际的意义,试想,谁会使用一个问啥都说不知道的bot呢。​ 针对这个问题,有很多相关的研究,比如模型派倾向于通过复杂精妙的模型来提升diversity,也

2021-09-29 10:43:51 573

原创 自然语言处理中的embeddings

1. 背景​ 自2010年代初以来,嵌入一直是自然语言处理(NLP)的主流热词之一。将信息编码成低维向量表示,在现代机器学习算法中很容易集成,这在NLP的发展中起到了核心作用。嵌入技术最初集中在单词上,但很快就开始将注意力转移到其他形式上:从图结构,如知识库,到其他类型的文本内容,如句子和文档。​ 接下来,我们会从最初的one-hot开始,探索embddings在nlp领域的发展。2. 概览​ 在embeddings技术出现以前,nlp领域应用较多的是以one-ho

2021-09-29 10:42:51 2609

原创 memory network

1. 背景​ 记忆网络是一种最早提出于2014年的网络,这个网络与seq2seq有许多相似之处,不过有其特殊之处,该网络经过几年的发展,已经发展出了不少的新技术,本篇文章讲话对该类网络进行个较为详细的介绍。2. 方法历程2.1 memory networks​ 这个网络提出的背景是基于大部分的机器学习模型不能读和写一个long-term memory component的部分内容,并能与inference无缝结合,这种缺陷使得他们无法良好利用现代计算机的资源。​ 传统的深度学习模型(RNN、

2021-09-29 10:42:09 1546 1

原创 contextualized_embeddings

1. Introduction​ 语境词嵌入(contextualized word (CW) )是新一代词嵌入技术,它的突出特点就是词的表示对其所处的上下文具有敏感性,一个目标词的embedding可以根据他出现的上下文而变化,这些动态embeddings减轻了许多与静态词embeddings相关的问题,并为捕捉自然语言在上下文中的语义和句法属性提供了可靠的手段。语境化词嵌入尽管历史不长,但在几乎所有被应用的下游NLP任务中,都提供了显著的收益。​ 自被引入以来,预训练的word embeddings

2021-09-29 10:41:26 788

原创 transformer

1. Introduction​ 在transformer模型问世以前,序列建模任务最常用的模型就是sequence-to-sequence了,尤其是随着各种attention机制的加入,attention-based seq2seq模型获得了更好的性能从而得到了更广泛的应用。​ 不过RNN也有自己的问题:无法并行,导致训练偏慢句间依赖序列问题其实包括了三种依赖:源句子内部依赖 ,目标句子内部依赖,源句子与目标句子之间的依赖。这三种依赖关系对于从源句子到目标句子的转换都十分重要,而seq2

2021-09-28 15:14:48 212

原创 transformer变体

1. Introduction 在这篇博客,我们详细的介绍了transformer的结构,也介绍了transformer还存在的问题,接着本篇文章将会介绍关于transformer的多种改进,让我们了解一下更加丰富多彩的transformer结构。2.各种变体2.1 Universal transformers(UT) 提出于2018年,是transformer的后续工作,它的提出是为了解决transformer固有的非图灵完备性及缺少conditional computation的问题。 UT与

2021-09-28 15:14:18 1279

原创 nlp领域的巧妙trick

1. adaptive softmax​  ICML 2017文章,该方法的灵感来自于hierarchy softmax及其变体,通过一种近似策略来实现超大词典上的语言模型的有效训练。1.1 特点该算法的提出利用到了单词分布不均衡的特点(unbalanced word distribution)来形成将单词分成不同的类, 这样在计算softmax时可以避免对词汇量大小的线性依赖关系,降低时间复杂度;通过结合现代架构和矩阵乘积操作的特点,使其更适合GPU单元的方式进一步加速计算。1.2 提出动机

2021-09-28 15:13:40 400

原创 bert家族

1. introduction​  Bert,目前nlp领域神器级模型,诞生于2018年,全称Bidirectional Encoder Representation from Transformers。该模型在其诞生时,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%)等,引起了极大的轰动。经过2年的发展

2021-09-28 15:12:17 452

原创 subword系列算法

1. 前言 nlp领域目前已经发展到一个非常高的层次了,这个层次不仅仅是模型和数据方面,还涌现出了很多非常巧妙的trick,这篇文章就记录一下关于tokenization方面的工作。 所谓的tokenization其实就是将文本切分成words或者subwords,然后转成ids以便模型处理。最初的nlp分词非常简单,对于英语类以空格分割的语言来说,简单的以空格进行分割就行,不过这样简单的处理还存在一些问题,比如说*“Don’t you love ???? Transformers? We sure d

2021-09-28 15:11:26 689

原创 流畅chatbot采样

流畅chatbot采样1. introduction​  这篇博客可以作为chatbot旅程的终点了,前面已经介绍了模型相关的工作,那么做完模型训练以后,剩下的就是生成了。要注意的是,模型生成的内容并不是和训练过程类似的,要想生成流畅且通顺的response还是需要一些额外的处理,这里会介绍一些生成相关的工作,以便让自己训练的模型有用武之地,毕竟,辛辛苦苦做出来的东西,能用且可用才是最让自己有成就感的。2. 生成方法2.1 greedy search 每次预测的时候选择概率最大的那个token,最

2021-09-28 15:10:00 498

原创 模型蒸馏探索(Bert)

1. 蒸馏是什么?​  所谓的蒸馏,指的是从大模型(通常称为teacher model)中学习小模型(通常称为student model)。何以用这个名字呢?在化学中,蒸馏是一个有效的分离沸点不同的组分的方法,大致步骤是先升温使低沸点的组分汽化,然后降温冷凝,达到分离出目标物质的目的。那么,从大模型中,通过一定的技术手段,将原模型中的知识提取出来,这个过程很类似于物质分离,所以将其称为是蒸馏。2. 蒸馏方法2.1 Logit Distillation 深度学习巨头Hinton提出,是一篇开创性的工作

2021-09-28 15:07:53 56779

原创 文本生成方法梳理

 nlp领域个人还是非常喜欢文本生成这个方向,现在大致梳理一下文本生成的相关问题。1. 文本生成方案 目前业界的文本生成方案主要有三种:(1)规则模板。典型的技术就是AIML语言。这种回复实际上需要人为设定规则模板,对用户输入进行回复。优点:1、实现简单,无需大量标注数据;2、回复效果可控、稳定。不足:1、如果需要回复大量问题,则需要人工设定大量模板,人力工作量大;2、使用规则模板生成的回复较为单一,多样性低。(2)生成模型。主要用encoder-decoder结构生成回复。典型技术是S.

2021-09-28 15:05:33 7645 1

原创 变分自编码器

layout: posttitle: 变分自编码器subtitle: Variational Autoencoderdate: 2021-03-13author: ODheader-img: img/post-bg-ios9-web.jpgcatalog: truetags:- vae- generative model变分自编码器 变分自编码器(vae)这个东西知道很久了,不过一直理解不是很深刻,现在总结一下查阅到的文档,同时记录一下自己.

2021-09-28 15:00:56 162

深度学习+21天实战Caffe

深度学习+21天实战Caffe,挺清晰的的,建议看看。

2017-10-11

OpenGL开发库(含VC和VS配置方法)

包括了几乎所有的功能模块,如实用库、辅助库、Windows专用库等,具体所含的文件如下: opengl.lib、glut32.lib、glut.lib、glu.lib、glu32.LIB、glaux.lib gl.h、glut.h、glu.h、glaux.h、GLEXT.H、WGLEXT.H opengl.dll、glut32.dll、glut.dll、gl

2017-10-09

STL源码剖析简体中文完整版清晰扫描带目录

STL源码剖析简体中文完整版清晰扫描带目录.不错的书籍

2017-09-30

C++对象模型 PDF中文清晰版

C对象模型 PDF中文清晰版,挺好的一本书,侯杰翻译,必属精品

2017-09-28

计算机图形学peter Shirley。

计算机图形学peter Shirley。感觉挺清晰的

2017-09-27

算法竞赛入门经典(第2版)lrj紫书

算法竞赛入门经典(第2版)lrj紫书

2017-08-15

神经网络与深度学习中文版

神经网络与深度学习中文版

2017-08-10

应用随机过程概率模型导论(第10版)

应用随机过程概率模型导论(第10版),ml必备书

2017-08-10

机器学习实战

机器学习实战,有助于理解

2017-08-10

python科学计算第二版(可编辑)

python科学计算第二版(可编辑)

2017-08-10

推荐系统实践

内容简介:, 随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载(information overload)的时代 。在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:对于信息消费者,从大量信息中找到自己感兴趣的信息是一件非常困难的事情;对于信息生产者,让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。

2017-08-10

数据挖掘:概念与技术 原书第03版

数据挖掘:概念与技术 原书第03版

2017-08-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除