- 博客(208)
- 资源 (6)
- 收藏
- 关注
原创 chatgpt官方支持微调了!
openai这一波实属厉害,它的基座模型天花板本来就很高,而且我们可以看到官方介绍的微调样本数量其实需要的很少就可以得到不错的效果,在这种情况下,其他模型至少目前应该还是很难竞争的。不过还有一个老问题没解决就是数据的安全性,不论是调用api还是微调,用户数据都是要最终流向openai的,这对安全性要求高的用户来说还是不可行,这个时候训练自己的本地私有化模型还是有必要的。另外我们也可以借鉴学习一下其提高的迭代数据质量&数据数量等实战经验用以自己的训练开发中。
2023-08-23 11:28:31 304 1
原创 从头预训练大模型实践经验
本篇给出了一些宝贵的经验,同时我们也看到如果从头开始训练一个大模型确实是一个浩大的工程,会遇到许多问题,是一个不断摸索和实验的过程,同时本篇也提出了另外一个很有趣的话题就是模型参数量和数据量的关系,到底是需要更大的模型更小的数据量,还是说模型还没有训练充分,其实需要增加数据量,作者也在附录提了一些OpenAI给的一些建议,不过总的来说,具体定量的分析现在还没有结论,但一个基本的大模型和海量数据是肯定的需要的了。
2023-08-21 12:31:19 658
原创 推荐和搜索系统的多样性研究综述
前言检索结果的多样化是检索系统的一个重要研究课题,其可以满足用户的各种兴趣和供应商的平等公平曝光。然而,检索系统中(搜索与推荐领域)的多样性研究缺乏一个系统的汇总,并且研究点相对零散。本次介绍的paper中,首次提出了一个统一的分类法,用于对搜索和推荐中的多样化指标和方法进行分类,这也是检索系统中研究最为广泛的两个领域。全文较长,感兴趣的小伙伴建议先收藏~论文链接:https://arxiv.org/pdf/2212.14464.pdfintroduction随着信息的爆炸式增长,检索系统越来越
2023-01-27 12:16:52 838 3
原创 视频序列对比学习
前言视频embedding化也即表征有很多实际的应用场景,比如文本-视频 pair的检索等等。由于视频一般来说较长,所以对于给定的一段话,其中的某些sentence句子一般对应着视频中某几个clip片段,之前常规的做法都是去匹配所有的sentence-clip pairs对。但是这种单元级别匹配的做法会天然的忽略掉全局的时间序列,这样就在一定程度上限制了泛化性,比如对于一些背景相似的视频,通常会出现一种匹配错误的情况(如下图(a)(b)在画面视觉上很相似,但是分别对应着文本(1)(2)),为此本文提出了
2023-01-07 11:44:11 506
原创 将扩散模型应用到文本领域
前言扩散模型在文生图领域可谓是大显身手,效果棒棒~每当一个idea有效之时,便会有更多相关的研究跟进尝试,今天就给大家介绍一篇将扩散模型应用到文本生成领域的工作,这也是一篇比较新的paper,其中还用到了梅西在2022世界杯表现的例子。大家可以重点借鉴看看作者是怎么把扩散这一idea揉进到NLP的,最好看看能不能从中找到一些启发进而把扩散这一idea用到自己的领域试试~截止笔者写这篇博客的时候,作者的代码还没有放出来,不过paper说了在不久的将来会开源出来,另外笔者之前也写过一篇关于扩散模型代码解
2022-12-24 13:57:47 1170 2
原创 基于预训练和对比学习的新意图发现
前言从对话人的语句中发现新意图是一个研究方向一般来说就是对句子通过聚类来解决这一问题,所以这里通常会涉及到两个问题:(1)怎么表征好一个句子(2)怎么更好的聚类今天就给大家介绍本篇~,对了,关于新意图类的相关的paper,笔者之前也介绍过一篇进行了汇总,感兴趣的小伙伴可以穿梭:《新类识别/领域自适应-聚类》:https://mp.weixin.qq.com/s/A8QVahx__K_GN1xTXjlaHg本次介绍的:paper:https://aclanthology.org/2022.a
2022-12-18 14:01:28 462
原创 扩散模型代码剖析
前言相信大家对扩散模型早有耳闻,其着实大火了一把,效果也确实是好。今天写这篇博客的主要动机就是想真正进入到代码层面去看看其到底是怎么实现的。其实在看完代码后,会觉得其实现的非常简单,而且也会对原理的理解有一个更好的正反馈。多说一句,在扩散模型能够生成这么惊艳的图片大背景下,已经有大批研究员悄然开始了研究生成视频的方向,笔者之前也写过一篇,感兴趣的可以穿梭:https://zhuanlan.zhihu.com/p/570332906另外其实网上还有很多扩散的代码,大体上核心的地方都一样,笔者在文末也
2022-12-14 14:58:25 2219 1
原创 最近火爆了的对话ChatGPT
前言相信最近小伙伴们已经被ChatGPT的惊艳效果刷屏了,之前笔者也介绍过一些对话方向的工作,感兴趣的小伙伴可以穿梭:对话系统最新综述II https://zhuanlan.zhihu.com/p/446760658在对话系统中建模意图、情感: https://zhuanlan.zhihu.com/p/468317109对话模型背后可以做更多事: https://zhuanlan.zhihu.com/p/458097616但今天要介绍的ChatGPT可以说是非常值得一看的,其不但能够回答日常的一些
2022-12-07 15:55:13 5959
原创 总结一些 spark 处理小trick
前言最近做了很多数据清洗以及摸底的工作,由于处理的数据很大,所以采用了spark进行辅助处理,期间遇到了很多问题,特此记录一下,供大家学习,。由于比较熟悉python, 所以笔者采用的是pyspark,所以下面给的demo都是基于pyspark,其实其他语言脚本一样,重在学习思想,具体实现改改对应的API即可。这里尽可能的把一些坑以及实现技巧以demo的形式直白的提供出来,顺序不分先后。有了这些demo,大家在实现自己各种各样需求尤其是一些有难度需求的时候,就可以参考了,当然了有时间笔者后续还会更新一
2022-11-19 10:01:59 1398
原创 百度最强中文AI作画大模型
前言最近文生图领域的发展可谓是分生水起,这主要是得益于最近大火的扩散模型,之前笔者也写过一篇关于文本生产3D模型的文章,大家感兴趣的可以穿梭:https://zhuanlan.zhihu.com/p/570332906今天要给大家介绍的这一篇paper是百度最新的文生图佳作:ERNIE-ViLG 2.0,其在diffusion的model基础上进行了两方面设计:融入语言和图像知识进行增强、混合降噪专家网络。ERNIE-ViLG 2.0目前在文本生成图像公开权威评测集 MS-COCO取得了SOTA,
2022-10-30 15:49:43 4149 1
原创 音乐生成文本
前言今天给大家介绍一篇音乐生成文本的paper,具体的是生成描述当前这个音乐的文本,同时还可以学一下其中作者设计的一个对比学习,笔者也贴了一下自己对其基本的代码实现,感兴趣的小伙伴可以收藏一下~论文链接:https://arxiv.org/pdf/2210.00434.pdf硬广哈哈,在开始之前,如果有小伙伴对多模态感兴趣,笔者之前也写过几篇,大家感兴趣也可以看看,不过都是关于图文的:https://zhuanlan.zhihu.com/p/435697429https://zhuanlan.z
2022-10-08 16:55:49 976
原创 太牛了:文本直接生成视频
前沿最近在多模态有两篇非常惊艳的工作:一篇是Facebook母公司META在9月30号放出来的Text-to-Video、一篇是Google的Text-to-3D;今天我们来看看第一篇即根据文本直接生成视频,注意不是生成图像而是生成视频!!!这个跨越可以说是非常巨大的。论文链接:https://makeavideo.studio/Make-A-Video.pdfdemo大家可以去如下链接先感受一波生成的demo,非常有趣,看完后说不定更有动力学习了,哈哈哈:https://make-a-video
2022-10-03 13:58:32 7910 5
原创 考虑长短期兴趣和内外站信号的推荐
前言最近在看一些cross-domain推荐系统的前沿论文,之前的文章也给大家介绍过一些了,感兴趣的小伙伴可以穿梭看之前的内容,比如:https://zhuanlan.zhihu.com/p/556102767https://zhuanlan.zhihu.com/p/560783003今天我们继续介绍这个领域的一篇paper,全文较长,涉及的知识点也较多,对本期内容感兴趣的同学建议先收藏,慢慢消化。一个优秀的推荐系统是要能够同时抓住用户的长期和短期兴趣的,而且能够利用好各个源的用户行为数据的,我们
2022-09-16 16:11:50 788
原创 利用文本结构知识增强预训练模型的问题生成
前言问题生成任务简单来说就是给定一篇文章passage和一个对应的答案answer来自动生成一个模型,它的应用场景也非常的多,笔者之前也写过一篇有关问题生成的文章,感兴趣的小伙伴可以看看:QA4QG: 一个多跳问题生成任务模型:https://zhuanlan.zhihu.com/p/467842564今天要介绍的这篇paper是基于预训练模型做的,不过它的发力点是说之前很多基于预训练模型做的工作都没有考虑文章结构,为此作者针对性的提出设计了两个模块来解决,最后在SQuAD数据集上取得了很好的效果论
2022-09-12 22:09:41 905
原创 元学习:如何使模型快速适应新任务
前言我们现在大部分模型都是通过训练样本学习好某一任务,即使是多任务学习也是使得模型最后学习好这几个多任务。但是!!!今天要讨论的话题并不是说模型要学会任务,而是让模型学会去学习。这里是不是有点绕,我们举个例子来说:我们人类一生会学习很多东西,也就是很多任务,每当在学习很多新任务的时候我们也需要看一些书籍或者示范(其实对于模型来说就是训练样本),但是有的时候我们只需要看很少的示范就可以一举三学会,也就是常说的学习能力强,什么是学习能力强?学习能力强说的是当两个人面对同样一个新任务的时候,其中一个人可以在极
2022-09-07 19:15:55 360 3
原创 跨领域个性化迁移用户兴趣偏好
前言在推荐系统中冷启动一直是一个研究热点,所幸的是同一个用户在其他场景上可能有对应的交互行为,于是我们就可以利用这些其他场景交互行为数据来挖掘当前场景的可能行为,进而来解决冷启动问题。该研究其实是一个很大的方向叫做Cross-domain Recommendation (CDR) ,其他场景的数据通常叫做源域(source domain),而真真要做的场景叫做目标域(target domain),该方向已经有很多代表性的工作,感兴趣的同学可以搜索相应的关键词去检索相关的工作。今天要介绍的一篇就是其中之
2022-09-03 08:49:14 479
原创 弱监督文本分类
前言在实际场景中,想有一份干净的监督数据是非常难的,而标注数据需要耗费大量的人力,是非常昂贵的,于是乎基于弱监督的方法就显得非常重要了,今天介绍一篇基于弱监督方法的文本分类模型。论文链接:https://arxiv.org/pdf/2205.06604.pdf方法作者总体思路就是额外获取一个监督信号,以此来增强分类任务的进行即弱监督。具体的作者是从预训练模型中获取监督信号,然后借助该信号进行后续的分类。(1)Supervision Signals作者这里借鉴prompt思想来获取
2022-05-28 11:00:51 638
原创 开箱即用的百度开放域信息抽取的统一框架UIE
前言在日常工作中,从文本中抽取各类信息是常见的基本任务,今天要给大家介绍的是百度开源的UIE框架,这一框架在实体抽取、关系抽取、事件抽取、情感分析等任务上都有着良好的泛化效果。其在医疗、金融等领域都有着不错的效果。而且最重要的是其可以实现零样本(zero-shot)或者少样本(few-shot)抽取,达到了开箱即用的效果。医疗领域效果:金融领域效果:框架地址:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/
2022-05-18 15:16:03 3396 1
原创 Zero-Shot跨语态抽取式文摘
前言抽取式摘要可谓是一项很常见的NLP任务,但是由于缺乏训练语料使得这项任务比较难进行train,可是我们知道英文的相关数据集其实很多,于是可以通过跨语态的技术来辅助目标语言的抽取摘要学习。即利用英语的数据集作为监督信息来对齐学习目标语言,进而达到目标语言的监督学习。今天来介绍的这篇就是解决这个问题的,一起来看下吧~论文链接:https://arxiv.org/pdf/2204.13512v1.pdf方法既然想利用跨语态,那其实首先要解决的就是怎么对齐语种。作者这里借助了两个常见的方法:
2022-05-05 14:53:24 1390
原创 学习知识图谱中无提及实体对的关系表示
前言知识图谱近些年来应用场景非常多,随之延伸出来的技术也是层出不穷。知识图谱一个常见的挑战就是稀疏性,为了解决这一难题,知识图谱embedding被提了出来即把图谱中的entities和relations映射到一个低纬的vector,这些model可以根据实体pair预测潜在的关系,但是这些模型之前基本上都是只使用图谱 中的数据进行train,而图谱本身就稀疏,好多关系可能都没有,这样就大大的从源头限制了模型的有效性或者说这个事情的天花板就不会太高。于是乎很多研究者将目光聚集在图谱之外的数据即大
2022-05-02 15:52:36 742
原创 最新大一统信息抽取SOTA模型
前言大一统模型目前越来越火,不论是今天要给大家介绍的信息抽取统一模型,还是再往大了说多模态统一模型,理论上来说这个idea的出发点还是不错的,在理想情况下,他可以将很多任务建模到同一个模型,使得任务之间可以相互增益,而且另外一个好处就是既然统一到同一个模型了,那么各个任务的数据集都可以使用,一块丢进去进行学习,数据量剧增。今天要介绍的这篇paper是对文本的信息抽取任务进行统一模型设计,关于多模态数据集的统一模型,大家感兴趣的话可以看笔者之前的写过的一篇文章:最新图文大一统多模态模型:FLAVA
2022-04-09 22:31:07 1230
原创 论点挖掘小技巧
前言今天给大家介绍一个有意思的NLP任务:观点挖掘即Argument Mining ,其目的是要挖掘人的观点,应用场景也比较广泛。如果从大的技术选型角度看,Argument Mining基本上属于实体关系抽取,即要完成两个基本任务:(1)观点抽取即实体抽取(2)观点之间的关系抽取即实体关系抽取论文链接:https://arxiv.org/pdf/2203.12881v1.pdf下面我们就快速来看看这篇paper用了什么小技巧领域自适应这里主要就是先用类似Reddit这种 具有讨论
2022-03-28 10:36:29 1600 1
原创 EVA2.0:大规模中文开放域对话预训练模型
前言对话系统一直是一个难点,尤其是在开放领域,因为闲聊的话题各种各样,涉及到方方面面,所以无疑给其研究带来了巨大的挑战,今天给大家介绍一篇最新的paper即EVA2.0。先上一张paper中的效果图,感受一波:其实在中文上开源的开放域对话预训练模型并不多,该领域目前效果最好的个人认为还是百度的PLATO,只不过其数据和模型参数都没有开源,但是开放了一些交互接口,大家可以体验,效果确实还行,关于相关的介绍以及对话系统技术发展的综述,笔者之前也写过一系列文章如下,大家可以根据兴趣挑着看:最新对
2022-03-21 12:30:00 4570 1
原创 通过prompt方法增强开放领域问答模型
前言开放领域问答任务最常见的两个难点就是保证回答的答案具有事实性和时效性,但是模型通常在训练好后就是固定的即权重固定好了,尤其是时效性基本上很难保证。今天要给大家介绍的这篇paper主要就是通过prompt来辅助解决这两个难点,感兴趣的小伙伴一起来看看吧~论文链接:https://arxiv.org/pdf/2203.05115v1.pdf多提一句,除了问答还有根据答案生成问题的任务,也很有趣,感兴趣的小伙伴可以看之前笔者介绍过的一篇:QA4QG: 一个多跳问题生成任务模型 - 知乎前言
2022-03-14 10:10:21 1871
NotoSansHans-Regular.otf&DroidSansFallback;.ttf
2018-06-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人