weixin_42001089-CSDN博客

原创一览大模型长文本能力

大模型长文本能力都涉及到哪些技术点？

2024-02-16 20:02:51 1013

原创做数据关键步骤：怎么写好prompt？

写好prompt就等于成功了一大半！

2023-12-30 11:27:42 1005

openai这一波实属厉害，它的基座模型天花板本来就很高，而且我们可以看到官方介绍的微调样本数量其实需要的很少就可以得到不错的效果，在这种情况下，其他模型至少目前应该还是很难竞争的。不过还有一个老问题没解决就是数据的安全性，不论是调用api还是微调，用户数据都是要最终流向openai的，这对安全性要求高的用户来说还是不可行，这个时候训练自己的本地私有化模型还是有必要的。另外我们也可以借鉴学习一下其提高的迭代数据质量&数据数量等实战经验用以自己的训练开发中。

2023-08-23 11:28:31 342 1

原创从头预训练大模型实践经验

本篇给出了一些宝贵的经验，同时我们也看到如果从头开始训练一个大模型确实是一个浩大的工程，会遇到许多问题，是一个不断摸索和实验的过程，同时本篇也提出了另外一个很有趣的话题就是模型参数量和数据量的关系，到底是需要更大的模型更小的数据量，还是说模型还没有训练充分，其实需要增加数据量，作者也在附录提了一些OpenAI给的一些建议，不过总的来说，具体定量的分析现在还没有结论，但一个基本的大模型和海量数据是肯定的需要的了。

2023-08-21 12:31:19 763

原创大规模SFT微调指令数据的生成

怎么自动化生成SFT数据？

2023-08-17 13:05:57 906

原创推荐和搜索系统的多样性研究综述

前言检索结果的多样化是检索系统的一个重要研究课题，其可以满足用户的各种兴趣和供应商的平等公平曝光。然而，检索系统中（搜索与推荐领域）的多样性研究缺乏一个系统的汇总，并且研究点相对零散。本次介绍的paper中，首次提出了一个统一的分类法，用于对搜索和推荐中的多样化指标和方法进行分类，这也是检索系统中研究最为广泛的两个领域。全文较长，感兴趣的小伙伴建议先收藏～论文链接：https://arxiv.org/pdf/2212.14464.pdfintroduction随着信息的爆炸式增长，检索系统越来越

2023-01-27 12:16:52 862 3

原创视频序列对比学习

前言视频embedding化也即表征有很多实际的应用场景，比如文本-视频 pair的检索等等。由于视频一般来说较长，所以对于给定的一段话，其中的某些sentence句子一般对应着视频中某几个clip片段，之前常规的做法都是去匹配所有的sentence-clip pairs对。但是这种单元级别匹配的做法会天然的忽略掉全局的时间序列，这样就在一定程度上限制了泛化性，比如对于一些背景相似的视频，通常会出现一种匹配错误的情况（如下图(a)(b)在画面视觉上很相似，但是分别对应着文本(1)(2)），为此本文提出了

2023-01-07 11:44:11 531

原创将扩散模型应用到文本领域

前言扩散模型在文生图领域可谓是大显身手，效果棒棒～每当一个idea有效之时，便会有更多相关的研究跟进尝试，今天就给大家介绍一篇将扩散模型应用到文本生成领域的工作，这也是一篇比较新的paper，其中还用到了梅西在2022世界杯表现的例子。大家可以重点借鉴看看作者是怎么把扩散这一idea揉进到NLP的，最好看看能不能从中找到一些启发进而把扩散这一idea用到自己的领域试试～截止笔者写这篇博客的时候，作者的代码还没有放出来，不过paper说了在不久的将来会开源出来，另外笔者之前也写过一篇关于扩散模型代码解

2022-12-24 13:57:47 1211 2

原创基于预训练和对比学习的新意图发现

前言从对话人的语句中发现新意图是一个研究方向一般来说就是对句子通过聚类来解决这一问题，所以这里通常会涉及到两个问题：（1）怎么表征好一个句子（2）怎么更好的聚类今天就给大家介绍本篇～，对了，关于新意图类的相关的paper，笔者之前也介绍过一篇进行了汇总，感兴趣的小伙伴可以穿梭：《新类识别/领域自适应-聚类》：https://mp.weixin.qq.com/s/A8QVahx__K_GN1xTXjlaHg本次介绍的：paper：https://aclanthology.org/2022.a

2022-12-18 14:01:28 481

原创扩散模型代码剖析

前言相信大家对扩散模型早有耳闻，其着实大火了一把，效果也确实是好。今天写这篇博客的主要动机就是想真正进入到代码层面去看看其到底是怎么实现的。其实在看完代码后，会觉得其实现的非常简单，而且也会对原理的理解有一个更好的正反馈。多说一句，在扩散模型能够生成这么惊艳的图片大背景下，已经有大批研究员悄然开始了研究生成视频的方向，笔者之前也写过一篇，感兴趣的可以穿梭：https://zhuanlan.zhihu.com/p/570332906另外其实网上还有很多扩散的代码，大体上核心的地方都一样，笔者在文末也

2022-12-14 14:58:25 2297 1

原创最近火爆了的对话ChatGPT

前言相信最近小伙伴们已经被ChatGPT的惊艳效果刷屏了，之前笔者也介绍过一些对话方向的工作，感兴趣的小伙伴可以穿梭：对话系统最新综述II https://zhuanlan.zhihu.com/p/446760658在对话系统中建模意图、情感: https://zhuanlan.zhihu.com/p/468317109对话模型背后可以做更多事: https://zhuanlan.zhihu.com/p/458097616但今天要介绍的ChatGPT可以说是非常值得一看的，其不但能够回答日常的一些

2022-12-07 15:55:13 5961

原创总结一些 spark 处理小trick

前言最近做了很多数据清洗以及摸底的工作，由于处理的数据很大，所以采用了spark进行辅助处理，期间遇到了很多问题，特此记录一下，供大家学习，。由于比较熟悉python, 所以笔者采用的是pyspark，所以下面给的demo都是基于pyspark，其实其他语言脚本一样，重在学习思想，具体实现改改对应的API即可。这里尽可能的把一些坑以及实现技巧以demo的形式直白的提供出来，顺序不分先后。有了这些demo，大家在实现自己各种各样需求尤其是一些有难度需求的时候，就可以参考了，当然了有时间笔者后续还会更新一

2022-11-19 10:01:59 1411

原创百度最强中文AI作画大模型

前言最近文生图领域的发展可谓是分生水起，这主要是得益于最近大火的扩散模型，之前笔者也写过一篇关于文本生产3D模型的文章，大家感兴趣的可以穿梭：https://zhuanlan.zhihu.com/p/570332906今天要给大家介绍的这一篇paper是百度最新的文生图佳作：ERNIE-ViLG 2.0，其在diffusion的model基础上进行了两方面设计：融入语言和图像知识进行增强、混合降噪专家网络。ERNIE-ViLG 2.0目前在文本生成图像公开权威评测集 MS-COCO取得了SOTA,

2022-10-30 15:49:43 4177 1

原创音乐生成文本

前言今天给大家介绍一篇音乐生成文本的paper，具体的是生成描述当前这个音乐的文本，同时还可以学一下其中作者设计的一个对比学习，笔者也贴了一下自己对其基本的代码实现，感兴趣的小伙伴可以收藏一下～论文链接：https://arxiv.org/pdf/2210.00434.pdf硬广哈哈，在开始之前，如果有小伙伴对多模态感兴趣，笔者之前也写过几篇，大家感兴趣也可以看看，不过都是关于图文的：https://zhuanlan.zhihu.com/p/435697429https://zhuanlan.z

2022-10-08 16:55:49 985

原创太牛了：文本直接生成视频

前沿最近在多模态有两篇非常惊艳的工作：一篇是Facebook母公司META在9月30号放出来的Text-to-Video、一篇是Google的Text-to-3D；今天我们来看看第一篇即根据文本直接生成视频，注意不是生成图像而是生成视频！！！这个跨越可以说是非常巨大的。论文链接：https://makeavideo.studio/Make-A-Video.pdfdemo大家可以去如下链接先感受一波生成的demo，非常有趣，看完后说不定更有动力学习了，哈哈哈：https://make-a-video

2022-10-03 13:58:32 8086 5

原创考虑长短期兴趣和内外站信号的推荐

前言最近在看一些cross-domain推荐系统的前沿论文，之前的文章也给大家介绍过一些了，感兴趣的小伙伴可以穿梭看之前的内容，比如：https://zhuanlan.zhihu.com/p/556102767https://zhuanlan.zhihu.com/p/560783003今天我们继续介绍这个领域的一篇paper，全文较长，涉及的知识点也较多，对本期内容感兴趣的同学建议先收藏，慢慢消化。一个优秀的推荐系统是要能够同时抓住用户的长期和短期兴趣的，而且能够利用好各个源的用户行为数据的，我们

2022-09-16 16:11:50 795

原创利用文本结构知识增强预训练模型的问题生成

前言问题生成任务简单来说就是给定一篇文章passage和一个对应的答案answer来自动生成一个模型，它的应用场景也非常的多，笔者之前也写过一篇有关问题生成的文章，感兴趣的小伙伴可以看看：QA4QG: 一个多跳问题生成任务模型：https://zhuanlan.zhihu.com/p/467842564今天要介绍的这篇paper是基于预训练模型做的，不过它的发力点是说之前很多基于预训练模型做的工作都没有考虑文章结构，为此作者针对性的提出设计了两个模块来解决，最后在SQuAD数据集上取得了很好的效果论

2022-09-12 22:09:41 925

原创元学习：如何使模型快速适应新任务

前言我们现在大部分模型都是通过训练样本学习好某一任务，即使是多任务学习也是使得模型最后学习好这几个多任务。但是！！！今天要讨论的话题并不是说模型要学会任务，而是让模型学会去学习。这里是不是有点绕，我们举个例子来说：我们人类一生会学习很多东西，也就是很多任务，每当在学习很多新任务的时候我们也需要看一些书籍或者示范（其实对于模型来说就是训练样本），但是有的时候我们只需要看很少的示范就可以一举三学会，也就是常说的学习能力强，什么是学习能力强？学习能力强说的是当两个人面对同样一个新任务的时候，其中一个人可以在极

2022-09-07 19:15:55 377 3

原创跨领域个性化迁移用户兴趣偏好

前言在推荐系统中冷启动一直是一个研究热点，所幸的是同一个用户在其他场景上可能有对应的交互行为，于是我们就可以利用这些其他场景交互行为数据来挖掘当前场景的可能行为，进而来解决冷启动问题。该研究其实是一个很大的方向叫做Cross-domain Recommendation (CDR) ，其他场景的数据通常叫做源域（source domain），而真真要做的场景叫做目标域（target domain），该方向已经有很多代表性的工作，感兴趣的同学可以搜索相应的关键词去检索相关的工作。今天要介绍的一篇就是其中之

2022-09-03 08:49:14 500

pyltp wheel安装包（含py35,py36）.zip

Scala安装包

mnist数据集

TensorFlow-inception

NotoSansHans-Regular.otf&DroidSansFallback;.ttf

OPENGL ES 3.0编程指南 (英文版+中文版)

空空如也