PaperWeekly-CSDN博客

转载总结！大模型微调（Fine-Tuning）的常见方法

随着大模型的飞速发展，在短短一年间就有了大幅度的技术迭代更新，从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等，几乎每天都有新的发展。我们总结了算法工程师需要掌握的大模型微调技能，并制作了大模型微调技能图谱，希望可以帮助大家将知识体系梳理清楚，为未来在大模型的工作与科研道路上节省时...

2024-04-22 13:13:44 17

转载奖金丰厚！KDD Cup 2024 检索增强生成CRAG挑战赛正式启动

简介想象一下，你希望使用一个AI助手来获取你最喜欢的运动队的最新消息，但是你得到的是去年的比赛结果。或者当你询问一个你非常喜欢的小众电影时，却得不到有意义的答案。这些都是大语言模型生成“幻觉”的经典例子，即大型语言模型（LLM）提供过时或不正确的信息。愿意与我们一同努力，帮助LLM（大型语言模型）减少幻觉，提供准确的回答吗？快来参加Meta KDD Cup 2024检索增强生成的CRAG挑战吧！...

2024-04-22 13:13:44 7

转载 CVPR 2024 | 知识蒸馏中的Logit标准化：辅助logit-based KD算法稳定涨点

©作者 |孙上荃单位 |中科院信工所研究方向 |知识蒸馏太长不看的一句话总结：传统知识蒸馏默认学生/教师网络的温度是全局一致的，这种设置迫使学生模仿教师的 logit 的具体值，而非其关系，论文方法提出 logit 标准化，解决了这个问题。论文标题：Logit Standardization in Knowledge Distillation论文链接：https://arxiv.org/ab...

2024-04-22 13:13:44 4

原创 Meta提出全新文档级嵌入框架，利用LLM来增强信息检索能力

近年来，基于嵌入式检索（embedding-based search）或密集检索（dense retrieval）相比传统的稀疏检索（sparse retrieval）或基于词袋（bag of words）的方法，已经展示出了更先进的结果。于此同时，Meta 的研究团队（Mingrui Wu 和 Sheng Cao）近日发表了一个通过大型语言模型（LLM）实现检索增强的的文档级嵌入框架，使得可以显...

2024-04-22 13:13:44 320

转载 CVPR 2024 | 通用视觉新突破！UC伯克利提出首个无自然语言的纯视觉大模型

©作者 |机器之心编辑部来源 |机器之心仅靠视觉（像素）模型能走多远？UC 伯克利、约翰霍普金斯大学的新论文探讨了这一问题，并展示了大型视觉模型（LVM）在多种 CV 任务上的应用潜力。最近一段时间以来，GPT 和 LLaMA 等大型语言模型 (LLM) 已经风靡全球。另一个关注度同样很高的问题是，如果想要构建大型视觉模型 (LVM) ，我们需要的是什么？LLaVA 等视觉语言模型所提供的...

2024-04-21 21:49:48 20

转载文末送书 | 大模型开发的及时雨！《LangChain实战》全新教程来袭

LangChain 作为一个开源的大语言模型应用框架，自诞生之日起就备受瞩目。然而，它的发展之路却走过了不少曲折。一开始，LangChain 遭受了不少质疑和非议。有人认为它只适合入门学习，代码质量和设计缺乏工业级的严谨性，难以应用于生产环境。的确，作为一个新兴项目，LangChain 的早期版本还存在不少瑕疵。但正如其名 “Chain”，LangChain 就是要将模型、数据和业务逻辑紧密串联。...

2024-04-21 21:49:48 15 1

转载杭州内推 | VIVO AI研究院招聘AI端智能算法实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！VIVOVIVO AI研究院致力于研发业界领先的人工智能技术，通过AI技术创新持续为全球4亿+ VIVO用户带来无处不在的惊喜和激动人心的智慧体验。AI端智能算法实习生坐标：杭州岗位职责1. 负责智能体相关业务算法预研；2. 参与大模型的产品端上落地。岗位要求1. 本科及以上学...

2024-04-21 21:49:48 62

原创五光十色的多模态大模型：浅探视觉-语言大模型的关键模块设计

©PaperWeekly 原创 · 作者 |陈思硕单位 |北京大学研究方向 |自然语言处理引言多模态大模型的视觉编码器用哪种预训练 ViT？两阶段训练是否有必要？ViT 的参数应该冻结还是打开？大语言模型应该用 Base 还是 Chat 版本？是否要加入纯语言的安全对齐数据？训几个 epoch 合适？......随着大语言模型进入多模态时代，LLaVa、MiniGPT-4、BLIP-2、In...

2024-04-21 21:49:48 686

转载 60万奖金！2024全球人工智能技术创新大赛-算法挑战赛，等你来战！

点击文末“阅读原文”登陆大赛官网，提前了解更多赛事详情～

2024-04-20 13:13:33 21

转载 CVPR 2024 | 中大哈佛等提出全新训练方法CLoT，探究大模型幽默创新力

©PaperWeekly 原创 ·作者 |黄中展单位 |中山大学博士生研究方向 |生成式神经网络多模态大模型具备创造的潜力吗？能力如何？本文从大模型创造力测评与增强等方面进行了探索，从幽默创新响应的角度，揭示了大模型在创新任务上的潜力和不足。目前该成果被计算机视觉顶级会议 CVPR 2024 录用。论文链接：https://arxiv.org/abs/2312.02439项目主页：http...

2024-04-20 13:13:33 36

转载 MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

©作者 |机器之心编辑部来源 |机器之心在大算力的数字化时代下，大语言模型（LLM）以其令人瞩目的发展速度，正引领着技术的潮流。基于它们强大的文本理解和生成能力，各大研究机构正在探索如何将这些能力扩展至视觉领域，构建一个能够理解和生成多模态内容的超级智能体 —— 多模态大语言模型（MLLMs）。在追求通用视觉性能的道路上，社区内已经涌现出众多精心设计的测评 benchmark。它们通常使用贴近...

2024-04-20 13:13:33 17

转载北京内推 | 京东物流地图数据部门招聘AI算法实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！京东京东集团2007年开始自建物流，并于2017年4月25日宣布成立京东物流集团，2021年5月，京东物流于香港联交所主板上市。京东物流是中国领先的技术驱动的供应链解决方案及物流服务商，以“技术驱动，引领全球高效流通和可持续发展”为使命，致力于成为全球最值得信赖的供应链基础设施...

2024-04-20 13:13:33 19

转载 AAAI 2024 | 杭电等提出MINDS，基于序列超图和对抗学习增强多尺度扩散预测

©PaperWeekly 原创 ·作者 |焦鹏飞单位|杭州电子科技大学研究方向|复杂网络、图机器学习论文作者：焦鹏飞、陈虹茜、鲍青、张旺、吴华明作者单位：杭州电子科技大学、天津大学论文链接：https://ojs.aaai.org/index.php/AAAI/article/view/28701/29358论文代码：https://github.com/cspjiao/MINDS摘要...

2024-04-19 13:12:16 24

转载博士申请 | 美国亚利桑那大学杨幻睿老师招收机器学习方向全奖博士/实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！亚利桑那大学亚利桑那大学 (University of Arizona，简称UA) 建立于1885年，是亚利桑那州的核心公立大学 (R1 University)。该校被誉为“公立常春藤”之一。该校的附属医院为全州最大的医疗机构。该校与亚利桑那州立大学 (ASU) 同属亚利桑那校...

2024-04-19 13:12:16 44

转载 GPT超越扩散！视觉生成迎来Scaling Law时刻！北大&字节提出VAR新范式

©作者 |机器之心编辑部来源 |机器之心新一代视觉生成范式「VAR: Visual Auto Regressive」视觉自回归来了！使 GPT 风格的自回归模型在图像生成首次超越扩散模型，并观察到与大语言模型相似的 Scaling Laws 缩放定律、Zero-shot Task Generalization 泛化能力：▲论文标题: "Visual Autoregressive Modeli...

2024-04-19 13:12:16 23

转载高效涨点！用Transformer模型发Nature子刊（文末送书）

Transformer模型核心优势在于其独特的自注意力机制，这一机制极大地提升了NLP任务的性能。最近大热的大模型（GPT、Llama等）不仅用Transformer模型统一了对所有nlp自然语言处理工作，也统一了computer vision等多模态领域。 Transformer模型有缺陷，所以大家能够不断的改进它......本次研梦非凡《Transformer基础训练营》带你「深入理解并实践...

2024-04-19 13:12:16 16

转载开放开源！蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE

OneKE 是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架，具备中英文双语、多领域多任务的泛化知识抽取能力，并提供了完善的工具链支持。OneKE 以开源形式贡献给 OpenKG 开放知识图谱社区。大语言模型目前已显著提升了人工智能系统处理世界知识的能力，然而，以大语言模型为代表的生成式人工智能依然存在推理能力不足、事实知识匮乏、生成结果不稳定等问题，这些都极大的阻碍了大语言模型的产业化落地。...

2024-04-18 18:34:59 90

转载改变LoRA的初始化方式，北大新方法PiSSA显著提升微调效果

©作者 |机器之心编辑部来源 |机器之心随着大模型的参数量日益增长，微调整个模型的开销逐渐变得难以接受。为此，北京大学的研究团队提出了一种名为 PiSSA 的参数高效微调方法，在主流数据集上都超过了目前广泛使用的 LoRA 的微调效果。论文题目：PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large L...

2024-04-18 18:34:59 50

原创 ICLR 2024 | 阐明扩散模型中的曝光偏差问题，一行代码大幅提升生成质量

论文链接：https://arxiv.org/abs/2308.15321代码连接：https://github.com/forever208/ADM-ES摘要扩散模型在图像生成方面非常成功，但其曝光偏差（exposure bias）的问题（训练和采样过程的输入存在偏差）缺乏深入的探索。在本文中，我们通过首先对真实的采样分布进行分析，并找出了暴露偏差问题的根本原因。此外，我们讨论了该问题一些潜在解...

2024-04-18 18:34:59 795

转载北京内推 | OPPO AI中心大模型算法部招聘NLP算法工程师

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！OPPOOPPO 于 2004 年正式成立，是全球领先的智能设备创新者。目前我们的足迹已遍及60 多个国家和地区，通过 260000 多个全球零售店数量及 3100 多个线下客户服务门店，与全球用户共享科技之美。OPPO 在全球布局八大智能制造中心并在伦敦设有全球设计中心，携手...

2024-04-18 18:34:59 65

原创 ICLR 2024 | 持续近端策略优化算法：人类反馈的持续强化学习

©PaperWeekly 原创 ·作者 | 张晗单位 | 哈尔滨工业大学（深圳），鹏城实验室研究方向 | 大模型人类价值观对齐，持续学习简介人类反馈强化学习（RLHF）作为提升大语言模型（LLM）与人类偏好对齐的重要手段。现有 RLHF 方法在处理不断变化的人类偏好时，往往需要对 LLM 进行全参数重新训练，这在实际应用中面临着时间、计算成本及数据隐私等方面的巨大挑战。依托哈尔滨工业大学（深圳）...

2024-04-17 13:39:47 584

转载博士申请 | 香港科技大学郭嵩教授招收大语言模型/边缘智能等方向全奖博士/RA/博后...

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！香港科技大学香港科技大学，自 1991 年创立以来，便以其卓越的教育质量和科研实力迅速崛起，成为亚洲乃至全球瞩目的高等学府。短短三十年间，科大已跻身“QS 世界百强大学”、“泰晤士高等教育世界百强大学”及“美国新闻与世界报道世界百强大学”之列，更荣获泰晤士高等教育世界第二年轻大...

2024-04-17 13:39:47 68

转载发论文到底是实验重要还是idea重要？

在发表过几十篇顶会顶刊的大佬看来：要发表一篇顶会，最重要的就是选题和 idea创新点设计。因为能发顶会/高区会议的文章，idea必须具有创新性，一个好的idea就能决定文章是CCF A会的水平还是CCF C会的水平。但是作为学生，科研经验本就比较弱。几乎不具备独立提炼idea的能力。所以，一个学生要想顺利完成第一篇SCI/CCF或者顶会顶刊，十分建议你选一位有经验有能力的“学术领路人”。鉴于此，给...

2024-04-17 13:39:47 41

转载 ICLR 2024 | Twin-sight：标签稀缺下的联邦模型鲁棒训练范式

©作者 |杨智钦单位 |TMLR group, HKBU来源|将门创投本文提出了一种新型联邦半监督学习训练范式，Twin-sight。首先分析了现有联邦半监督学习由于单一模型下的多目标函数优化，导致模型更新时的梯度冲突，降低了联邦学习系统对无标签知识的有效利用。基于孪生视角的 Twin-sight 双模型训练范式，将多目标函数问题解耦，从根本上杜绝了梯度冲突的发生。大量的实验证明，Twin...

2024-04-17 13:39:47 46

原创 NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)

©PaperWeekly 原创 ·作者 |郎皓单位 |阿里巴巴论文标题：Fine-Tuning Language Models with Reward Learning on Policy论文作者：郎皓、黄非、李永彬收录会议：NAACL 2024论文链接：https://arxiv.org/abs/2403.19279代码和数据：https://github.com/AlibabaResea...

2024-04-16 18:09:50 978

转载一阶优化算法启发，北大林宙辰团队提出具有万有逼近性质的神经网络架构设计方法...

©作者 |机器之心编辑部来源 |机器之心以神经网络为基础的深度学习技术已经在诸多应用领域取得了有效成果。在实践中，网络架构可以显著影响学习效率，一个好的神经网络架构能够融入问题的先验知识，稳定网络训练，提高计算效率。目前，经典的网络架构设计方法包括人工设计、神经网络架构搜索（NAS）[1]、以及基于优化的网络设计方法 [2]。人工设计的网络架构如 ResNet 等；神经网络架构搜索则通过搜索或...

2024-04-16 18:09:50 48

转载价值观罗盘：如何让大模型与人类价值观对齐？

编者按：随着人工智能技术的快速发展和能力的不断增强，大模型已经逐步应用于人们的日常生活。但这同时也带来了很多新的潜在风险，进一步凸显了大模型与人类价值观对齐问题的紧迫性。然而，人工智能应该与哪些价值观进行对齐？又该如何对齐？这些问题至今还没有明确的答案。为了解决这些挑战，微软亚洲研究院提出了价值观罗盘（Value Compass）项目，从交叉学科的角度切入，充分借鉴伦理学和社会学中的理论，以解决...

2024-04-16 18:09:50 31

转载上海期智研究院诚聘人工智能、信息安全、量子智能及相关方向海内外顶尖人才...

TopTalentRecruitment诚聘海内外顶尖人才人工智能/信息安全/量子智能上海期智研究院上海期智研究院是上海市新型研发机构之一，由图灵奖得主姚期智于 2020 年创建。研究院以建设世界顶尖基础科学研究机构为使命，打造上海科创中心建设新标杆。01研究院优势高水平人才汇聚集聚全球顶尖人才，目前参与科研人员 100 余人，从事原创性、前瞻性的科学研究与技术攻关。院校紧密合作与清华大学、上...

2024-04-16 18:09:50 64

转载博士申请 | 香港理工大学林婉瑜老师招收可信AI/生成式AI方向全奖博士/博后

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！香港理工大学香港理工大学(The Hong Kong Polytechnic University) 是一所位于中国香港的公立综合性研究型大学，坐落于香港九龙红磡湾。香港理工大学是香港地区的顶尖高校之一，并长期入选“QS世界百强大学”及“泰晤士高等教育世界百强大学”。在202...

2024-04-15 13:01:59 81

转载 Mamba入局遥感！RS-Mamba：首次使用SSM进行大遥感图像的语义分割与变化检测

©作者 |赵思杰单位 |南京大学硕士生研究方向 |语义分割Mamba 在大语言模型大放异彩，以其线性复杂度和媲美 transformer 的表现，被认为是 transformer 的有力替代。近期工作 Vim 和 VMamba 将 Mamba 引入到视觉图像领域，引爆了视觉领域的众多领域，涌现出大量使用 Mamba 进行视觉任务的研究。本文首次将 Mamba 引入到遥感，构建了 RS-Mam...

2024-04-15 13:01:59 70 1

原创 CVPR 2024 | PromptSG：开启语言引导行人检索新纪元，实现精准语义捕捉

©PaperWeekly 原创 ·作者 |吴大衍单位 |中国科学院信息工程研究所研究方向 |多媒体大数据分析借助对语义信息的深度挖掘，行人重识别技术取得了令人瞩目的进展。这些方法专注于提取图像中与语义紧密相关的部分，如人体的姿态、服饰等细节，从而实现了更加精准的对齐和匹配。然而，当前的方法仍受限于单一图像模态的利用，缺乏直观且有效的语义引导。这导致模型在关注区域时，往往只聚焦于某些特定的局...

2024-04-15 13:01:59 801 3

转载一文全面盘点算法工程师大模型微调技能图谱

随着大模型的飞速发展，在短短一年间就有了大幅度的技术迭代更新，从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等，几乎每天都有新的发展。我们总结了算法工程师需要掌握的大模型微调技能，并制作了大模型微调技能图谱，希望可以帮助大家将知识体系梳理清楚，为未来在大模型的工作与科研道路上节省时...

2024-04-15 13:01:59 38

转载博后招募 | 医疗大数据与医学智能实验室招聘博士后/青年教师/访问学生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！医疗大数据与医学智能实验室医疗大数据与医学智能实验室 (HDMI LAB) 由华南理工大学长聘教授、博士生导师，人工智能与数字经济广东省实验室（广州）研究员许言午教授创立。实验室长期从事医学图像分析、多模态医疗数据融合等方向的理论和应用研究。实验室在眼科疾病AI智能分析领域已经...

2024-04-14 22:05:04 52

转载 Github揽获8.6K星！《多模态大语言模型综述》重大升级

去年 6 月底，我们在 arXiv 上发布了业内首篇多模态大语言模型领域的综述《A Survey on Multimodal Large Language Models》，系统性梳理了多模态大语言模型的进展和发展方向，目前论文引用 120+，开源 GitHub 项目获得 8.6K Stars。自论文发布以来，我们收到了很多读者非常宝贵的意见，感谢大家的支持！论文链接：https://arxiv.o...

2024-04-14 22:05:04 58

转载 ICLR 2024 | 谁说大象不能起舞！重编程大模型实现跨模态交互的时序预测

©作者 |机器之心编辑部来源 |机器之心最近，来自澳大利亚蒙纳士大学、蚂蚁集团、IBM 研究院等机构的研究人员探索了模型重编程 (model reprogramming) 在大语言模型 (LLMs) 上应用，并提出了一个全新的视角：高效重编程大语言模型进行通用时序预测——其提出的 Time-LLM 框架无需修改语言模型即可实现高精度时序预测，在多个数据集和预测任务中超越了传统的时序模型，让 L...

2024-04-14 22:05:04 66

原创生成扩散模型漫谈：信噪比与大图生成

©PaperWeekly 原创 ·作者 | 苏剑林单位 |科学空间研究方向 | NLP、神经网络盘点主流的图像扩散模型作品，我们会发现一个特点：当前多数做高分辨率图像生成（下面简称“大图生成”）的工作，都是先通过 Encoder 变换到 Latent 空间进行的（即 LDM，Latent Diffusion Model [1] ），直接在原始 Pixel 空间训练的扩散模型，大多数分辨率都不超...

2024-04-14 22:05:04 723

转载 NLPCC 2024“大语言模型监管”评测任务发布，诚邀各界专家学者参与

简介大语言模型已经展现出令人瞩目的能力并在多种任务上达到甚至超越人类的表现。然而，随着这些模型在社会中的应用越来越广泛，它们可能产生的负面影响也引起了人们的关注。确保模型的安全并负责任地部署，监管大语言模型成为了一个关键环节。鉴于此，浙江大学和新加坡国立大学学者在NLPCC 2024上组织了大语言模型监管评测任务（Task10），包含多模态大语言模型幻觉检测和大语言模型解毒两个子任务，促进大语言模...

2024-04-12 18:12:36 59

转载业界首个！厦大北大联合深势科技发布XtalNet，从PXRD实验数据直接预测晶体结构...

近年来，人工智能在图像生成领域的显著进展引发了对扩散模型等方法的广泛关注。通过学习大量图像数据，这些先进的模型能够从随机噪声中生成高度逼真的图像。现在，深势科技与协作者将这一概念应用于晶体结构的预测上，从X射线粉末衍射（PXRD）数据中“扩散”出材料的精确晶体结构。晶体结构的准确预测对材料的性质理解和新材料的开发至关重要，当前的确定方法涉及复杂的实验和分析过程，效率低且易受人为误差影响。XtalN...

2024-04-12 18:12:36 37

原创 NUS、NTU等联合提出Dysen-VDM，利用LLM协助增强视频扩散模型的时间动态感知能力...

文本到视频（T2V）合成这一研究方向受到越来越热切的关注，其中最近以扩散模型为代表的方法，展现出了非常强大的视频生成能力，比如 1 个月前 OpenAI 发布的 Sora 系统。尽管现有的绝大部分开源的扩散模型能够实现高分辨率的视频生成，即画面高清；但实际上对于视频合成，建模视频中所涉及到的复杂时序动态能力，T2V 关键的重点和难点问题，却没有良好解决。也因此大部分的视频扩散模型存在诸如视频过渡不...

2024-04-12 18:12:36 628

转载博士申请 | 香港科技大学（广州）汤南教授招收数据科学方向全奖博士生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！香港科技大学（广州）2022年6月29日，国家教育部宣布依法批准正式设立香港科技大学（广州）。香港科技大学（广州）融合内地与香港优质教育资源，探索前沿交叉学科建设，创新人才培养模式，对于培养具有国际视野的创新型人才，推动国家高等教育综合改革，促进内地与香港教育融合发展，服务粤港...

2024-04-12 18:12:36 82

空空如也

空空如也