数据派THU-CSDN博客

转载几何建模引擎GME第二年度总结大会成功举办

4月21日上午，几何建模引擎GME第二年度总结大会在清华大学FIT楼二楼多功能厅成功举行。中国工程院院士、清华大学软件学院教授孙家广，软件学院院长王建民，国家超级计算天津中心主任、信创海河实验室副主任杨灿群，沪东中华造船（集团）有限公司技术中心副主任习猛，云基智慧工程股份有限公司董事长蔡成果以及各单位研究团队、学生代表等近80人出席。会议由清华大学软件学院GME负责人沈恩亚主持。孙家广院士讲话孙家...

2024-04-22 19:20:17 2

转载时空图神经网络ST-GNN的概念以及Pytorch实现（付代码）

来源：DeepHub IMBA本文约3500字，建议阅读7分钟本文带你学习ST-GNN的基本概念以及通过Pytorch代码实现来了解ST-GNN的工作原理。在我们周围的各个领域，从分子结构到社交网络，再到城市设计结构，到处都有相互关联的图数据。图神经网络（GNN）作为一种强大的方法，正在用于建模和学习这类数据的空间和图结构。它已经被应用于蛋白质结构和其他分子应用，例如药物发现，以及模拟系统，如...

2024-04-22 19:20:17 5

转载【剑桥大学博士论文】主动学习和半监督学习在语音识别中的应用

来源：专知本文约1600字，建议阅读5分钟对于主动学习，本论文提出了一种基于贝叶斯框架的方法，称为NBest-BALD。近年来，语音识别技术取得了显著进展，这在很大程度上可以归功于语音识别中深度学习的兴起和计算能力的增强。计算能力的增强使得模型能够在不断扩大的数据集上进行训练，而深度学习则使得这些大型数据集得到了更好的利用。对于商业产品而言，常见的做法是在数千小时的转录音频上进行训练。然而，音频...

2024-04-22 19:20:17 6

转载大模型分布式训练的第四种境界

本文约8500字，建议阅读10分钟本文将分享大模型分布式训练面临的挑战和相关技术体系。主要内容包括：1.历史背景2.分布式训练挑战3.分布式训练技术体系4.未来挑战5.Q&A01历史背景自 2019 年以来，大语言模型发展迅猛，不断有新的研究成果涌现，包括各类预训练模型及其应用，如 LLM Infra 等相关技术工作，这些成果令人振奋。然而，对于从事相关基础设施建设的人员来说...

2024-04-22 19:20:17 7

转载【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

来源：专知本文为论文介绍，建议阅读5分钟本文通过一个分解的多阶段、模块化推理框架来解决视频问答（videoQA）任务。本文通过一个分解的多阶段、模块化推理框架来解决视频问答（videoQA）任务。以往的模块化方法已经在视觉内容未涉及的单一规划阶段显示出潜力。然而，通过一个简单有效的基线，我们发现这样的系统在实践中对于具有挑战性的视频问答设置可能导致脆弱的行为。因此，与传统的单阶段规划方法不同，我...

2024-04-21 17:01:52 7

转载如何优化深度学习模型?

来源：运筹OR帷幄‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍本文约5500字，建议阅读10分钟本文介绍了如何优化深度学习模型。寻找合适的学习率(learning rate)学习率是一个非常非常重要的超参数，这个参数呢，面对不同规模、不同batch-size、不同优化方式、不同数据集，其最合适的值都是不确定的，我们无法光凭经验来准确地确定lr的值，我们唯一可以做的，就是在训练中不断寻找最合...

2024-04-21 17:01:52 7

转载 PiSSA ：将模型原始权重进行奇异值分解的一种新的微调方法

来源：DeepHub IMBA本文约600字，建议阅读5分钟我们开始看4月的新论文了，这是来自北京大学人工智能研究所、北京大学智能科学与技术学院的研究人员发布的Principal Singular Values and Singular Vectors Adaptation（PiSSA）方法。PiSSA和LoRA一样，都是基于这样的前提：对模型参数的改变会形成一个低秩矩阵。这种方法通过将模型中的...

2024-04-21 17:01:52 12

转载 ICLR 2024 | 鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练

来源：机器之心PaperWeekly本文约3000字，建议阅读6分钟本文从一个独特的视角解释了现有多模态大模型幻觉产生的原因。随着生成模型（如 ChatGPT、扩散模型）飞速发展，一方面，生成数据质量越来越高，到了以假乱真的程度；另一方面，随着模型越来越大，也使得人类世界的真实数据即将枯竭。面对这一处境，一个近期的研究热度是，能否利用生成模型生成的假数据来辅助学习？学界对此也产生了许多争论：到...

2024-04-21 17:01:52 18

转载有效识别 63 万个三维空间构型，清华大学牵头发布 Uni-MOF 模型，预测 MOF 吸附能力...

本文约3500字，建议阅读7分钟本研究中，用于预训练的 MOF/COF 结构主要来源于两方面——从当前可用的数据库中收集，或使用相应的程序生成。清华大学化工系卢滇楠教授团队，联合美国加州大学河滨分校吴建中教授和北京科学智能研究院高志锋研究员，提出一种三维 MOF 材料吸附行为的机器学习模型 Uni-MOF，用于预测各类工况下纳米多孔材料对各类气体的吸附性能。工业世界里，高纯气体被广泛应用于半导体...

2024-04-20 17:02:30 13

转载机器学习8大调参技巧！

来源：机器学习算法那些事本文约1200字，建议阅读5分钟今天给大家一篇关于机器学习调参技巧的文章。超参数调优是机器学习例程中的基本步骤之一。该方法也称为超参数优化，需要搜索超参数的最佳配置以实现最佳性能。机器学习算法需要用户定义的输入来实现准确性和通用性之间的平衡。这个过程称为超参数调整。有多种工具和方法可用于调整超参数。原文出处：https://analyticsindiamag.com/t...

2024-04-20 17:02:30 14

转载赠书 | 李飞飞：在人工智能爆发的年代里，这是我们应该关注的10个事实

文中有数据派THU福利哦世界人工智能领域顶级科学家李飞飞首部个人回忆录一部波澜壮阔、跌宕起伏的人工智能发展史对人工智能未来发展的深刻洞察和理性呼吁杰弗里·辛顿、张亚勤、李开复、黄铁军、杨澜、奥巴马等一致推荐4 月 15 日，李飞飞领导的斯坦福大学以人为本人工智能研究院（HAI）发布2024年度《人工智能指数报告》。这是《人工智能指数报告》走过的第七年。过去一年，以 ChatGPT 为代表的人工智...

2024-04-20 17:02:30 15 1

原创原创 | 大模型扫盲系列——大模型实用技术介绍（上）

作者：金一鸣本文约9400字，建议阅读10+分钟本文从技术的角度聚焦大模型的实战经验，总结大模型从业者关注的具体方向以及相关发展，帮助打算参与到大模型工作的人高效上手相关工作。Gemma模型架构和参数计算上一篇文章《原创 | 大模型扫盲系列——初识大模型》从比较宏观的角度初步介绍大模型领域的相关知识，旨在带领读者构建一个大模型知识框架。近期，大模型相关的技术和应用层出不穷，各个方向的论文百花齐...

2024-04-20 17:02:30 867

转载 MOMENT：CMU发布首个开源的时间序列基础大模型

本文约1800字，建议阅读5分钟在论文中，研究者强调对时间序列数据进行大规模、多数据集的预训练，对隐含的时间序列特征(如趋势和频率)进行编码，并展示了这种方法的好处。时间序列分析是一个重要领域，涵盖从天气预报和到使用心电图检测不规则心跳，再到识别异常软件部署等一系列广泛应用。然而，对这类数据进行建模通常需要大量的领域专业知识、时间和特定任务的设计。为了应对这些挑战，MOMENT 研究者汇编了一个...

2024-04-19 17:30:47 25

转载 2024年中国大模型评测报告

来源：数据观本文约1000字，建议阅读5分钟大模型展现出强大的通用性和跨领域能力，正在助力千行百业发展，“人工智能+”（AI+）在2024年首次被写入政府工作报告。日前，面对相继上市的众多模型，国际知名调研机构弗若斯特沙利文（Frost & Sullivan）联合头豹研究院发布《2024年中国大模型能力评测报告》（以下简称“报告”）。报告选定了中外19个具有代表性的大模型进行评测，其中覆...

2024-04-19 17:30:47 24

原创原创｜一文读懂智能体：从概念到应用

作者：陈之炎‍‍‍‍‍本文约5500字，建议阅读10分钟本文介绍了智能体的概念及应用。‍‍‍‍‍‍‍‍‍‍一、智能体的概念1.1什么是智能体(Agent)智能体（Agent），作为人工智能领域的一个重要概念，是指能够自主感知环境、做出决策并执行行动的系统。它具备自主性、交互性、反应性和适应性等基本特征，能够在复杂多变的环境中独立完成任务。智能体的出现，标志着人工智能从简单的规则匹配和计算模拟向...

2024-04-19 17:30:47 718

转载【ETHZ博士论文】面向场景理解的实用领域适应研究

来源：专知本文约1300字，建议阅读5分钟我们展示了我们提出的问题和方法超越了传统领域适应的限制，丰富了实际领域适应。这一进步有助于实现稳健的场景理解和在现实世界场景中的应用。场景理解旨在全面理解视觉场景，在计算机视觉领域中占据关键地位。为了赋予机器类似人类的场景理解能力，语义分割作为一种关键工具浮现出来，成为自动驾驶、机器人视觉和人机交互等广泛应用的核心。过去十年里，得益于大规模数据集的可用性...

2024-04-18 17:02:40 16

转载融合RL与LLM思想，探寻世界模型以迈向AGI「中·下篇」

本文约5W+字，建议阅读30+分钟本文从一个独特的视角解释了现有多模态大模型幻觉产生的原因。本篇文章与2023年底尝试挖掘并探寻以chatGPT为代表的LLM和以AlphaGO/AlphaZero及当下AlphaDev为代表的RL思想的背后底层理论及形式上的统一，同时与最近OpenAI暴露出的project Q*可能的关于细粒度过程学习再到系统①(快)思考与系统②(慢)思考的形式化统一的延展性思考...

2024-04-18 17:02:40 27

转载 CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

来源：机器之心本文约3600字，建议阅读10分钟第一个针对「Segment Anything」大模型的域适应策略来了！相关论文已被CVPR 2024 接收。引言大语言模型（LLMs）的成功激发了计算机视觉领域探索分割基础模型的兴趣。这些基础分割模型通常通过 Prompt Engineer 来进行 zero/few 图像分割。其中，Segment Anything Model（SAM）是最先进的...

2024-04-18 17:02:40 31

转载【斯坦福博士论文】在语言模型融合多模态知识

来源：专知本文为论文介绍，建议阅读5分钟文本提供广泛且富有语境的知识，知识图谱通常提供结构化的领域知识，而图像则促进各种视觉应用。语言模型，如GPT-4，具有生成对用户查询的文本响应的能力。它们被用于各种任务，包括问答、翻译、摘要和个人助理等。然而，为了创建更多功能的人工智能助手，这些模型需要处理更多样化和复杂的任务，涉及领域或视觉知识，如回答医疗问题以及解释或生成图像。这种需求促使了开发能够访...

2024-04-17 17:36:53 17

转载直播预告 | 多模态大模型的时代真的来了吗？

2024-04-17 17:36:53 20

转载归一化技术比较研究：Batch Norm, Layer Norm, Group Norm

来源：Deephub Imba本文约2000字，建议阅读5分钟本文将使用合成数据集对三种归一化技术进行比较，并在每种配置下分别训练模型。记录训练损失，并比较模型的性能。归一化层是深度神经网络体系结构中的关键，在训练过程中确保各层的输入分布一致，这对于高效和稳定的学习至关重要。归一化技术的选择（Batch, Layer, GroupNormalization）会显著影响训练动态和最终的模型性能。...

2024-04-17 17:36:53 25

转载人社部等九部门发布《加快数字人才培育支撑数字经济发展行动方案(2024-2026年)》...

4月17日，人力资源社会保障部、中共中央组织部、中央网信办、国家发展改革委等九部门印发《加快数字人才培育支撑数字经济发展行动方案（2024—2026年）》，要求紧贴数字产业化和产业数字化发展需要，用3年左右时间，扎实开展多项专项行动，提升数字人才自主创新能力，激发数字人才创新创业活力，增加数字人才有效供给，形成数字人才集聚效应，着力打造一支规模壮大、素质优良、结构优化、分布合理的高水平数字人才队伍...

2024-04-17 17:36:53 27

转载 5种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现

来源：DeepHub IMBA本文约6500字，建议阅读10+分钟本文将介绍大语言模型中使用的不同令牌遮蔽技术，并比较它们的优点，以及使用Pytorch实现以了解它们的底层工作原理。令牌掩码Token Masking是一种广泛应用于语言模型分类变体和生成模型训练的策略。BERT语言模型首先使用，并被用于许多变体(RoBERTa, ALBERT, DeBERTa…)。而Text Corruptio...

2024-04-16 17:01:42 14

转载融合RL与LLM思想，探寻世界模型迈向AGI/ASI的第一性原理反思和探索：RL×LLM×WM>AI4S>AGI>ASI「上篇」...

本文约16000字，建议阅读20+分钟针对围绕LLM的洞察思考上，我们尝试通过在几个方面进行对LLM内涵的深入阐释。本篇文章与2023年底尝试挖掘并探寻以chatGPT为代表的LLM和以AlphaGO/AlphaZero及当下AlphaDev为代表的RL思想的背后底层理论及形式上的统一，同时与最近OpenAI暴露出的project Q*可能的关于细粒度过程学习再到系统①(快)思考与系统②(慢)思考...

2024-04-16 17:01:42 22

转载 Scaling Laws又失灵了？谷歌新研究：扩散模型不是越大越好

本文约2000字，建议阅读5分钟谷歌研究院和约翰霍普金斯大学在最新的论文中指出：对于潜在扩散模型，模型不一定是越大越好。近年来，模型规模呈现出愈来愈大的趋势，越来越多的人相信“力大砖飞”。OpenAI 虽然没有公布Sora的训练细节，但在Sora的技术报告中提到了：Our largest model, Sora, is capable of generating a minute of high ...

2024-04-16 17:01:42 44

转载港中文提出CLongEval中文基准测试集，准确评估大模型长上下文能力

本文约2000字，建议阅读5分钟本文提出了一个基准测试集，以准确评估 LLM 在中文领域的长文本上下文处理能力。论文题目：ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models论文地址：https://arxiv.org/abs/2403.03514代码地址：https://github.co...

2024-04-15 17:05:03 24

转载【博士论文】可解释、可信赖和可靠的人工智能

来源：专知本文为论文介绍，建议阅读5分钟本论文通过探索深度学习的可解释性和自解释模型，为这一研究领域做出了贡献。人工智能领域最近见证了显著的增长，导致开发了在各种领域表现出色的复杂深度学习模型。然而，这些发展带来了关键问题。深度学习模型容易继承并可能加剧其训练数据中存在的偏见。此外，这些模型的复杂性导致缺乏透明度，这可能导致偏见未被发现。这最终可能阻碍这些模型的采用，因为缺乏信任。因此，培养本质...

2024-04-15 17:05:03 30

转载 CVPR 2024 | 多模态大模型幻觉原因找到了！

本文约2000字，建议阅读5分钟本文从一个独特的视角解释了现有多模态大模型幻觉产生的原因。论文题目：OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation论文地址：https://arxiv.org/abs/23...

2024-04-15 17:05:03 40

转载比手动快13倍多，「机器人+AI」发现电池最佳电解质，加速材料研究

来源：ScienceAI本文约2000字，建议阅读5分钟美国西北太平洋国家实验室和阿贡国家实验室的研究团队，设计了一个高度自动化的工作流程，将高通量实验平台与最先进的主动学习算法相结合，可有效筛选对阳极电解质具有最佳溶解度的二元有机溶剂。传统的材料研发模式主要依赖「试错」的实验方法或偶然性的发现，其研发过程一般长达 10-20 年。虽然基于机器学习 (ML) 的数据驱动方法可以加速清洁能源技术新...

2024-04-14 17:01:02 18

转载【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

来源：专知本文为论文介绍，建议阅读5分钟我们提出一种在线处理视频的方法，而不是像大多数现有工作那样尝试同时处理更多帧，并在内存库中存储过去的视频信息。随着大型语言模型（LLMs）的成功，将视觉模型整合到LLMs中以构建视觉-语言基础模型近来引起了更多的关注。然而，现有的基于LLM的大型多模态模型（例如，Video-LLaMA，VideoChat）只能处理有限数量的帧来理解短视频。在这项研究中，我...

2024-04-14 17:01:02 34

转载 15 个目标检测开源数据集汇总

来源：AI有道本文约2700字，建议阅读8分钟本文收集和整理了15个目标检测相关的开源数据集，希望能给大家的学习带来帮助。目标检测应当在这几年当中研究数量以及应用范围最广的一个领域，也持续的受到很多深度学习者们的关注。1.火焰和烟雾图像数据集数据集链接：http://m6z.cn/6fzn0f该数据集由早期火灾和烟雾的图像数据集组成。数据集由在真实场景中使用手机拍摄的早期火灾和烟雾图像组成。大...

2024-04-14 17:01:02 56

转载【机器学习】14种异常检测方法总结！

来源：机器学习初学者本文约7700字，建议阅读15分钟本文收集整理了公开网络上一些常见的异常检测方法（附资料来源和代码）。本文收集整理了公开网络上一些常见的异常检测方法（附资料来源和代码）。不足之处，还望批评指正。一、基于分布的方法1. 3sigma基于正态分布，3sigma准则认为超过3sigma的数据为异常点。图1: 3sigmadef three_sigma(s): mu, std...

2024-04-14 17:01:02 74

转载面向2026年的推荐算法前瞻

本文约5800字，建议阅读10分钟希望在未来 3 年能找到好的解法。[ 导读 ] 常规的推荐系统范式已经逐渐走入瓶颈，原因是在当前固定化的问题描述下模型和系统几乎已经发展到极限。当前的主要范式在模型上为召回+排序+重排，系统上为样本挖掘+特征工程+线上打分预估能力建设。一线大厂在上述领域已经把空间挖掘殆尽。同时可以看到，我们的用户对当前推荐系统的满意度仍然未达到理想状态。推荐系统是一个非常面向于用...

2024-04-13 17:01:32 24

转载 Nat. Mach. Intell.|设计超高效疫苗，普林斯顿团队开发首个解码mRNA序列大模型

来源：ScienceAI本文约3500字，建议阅读5分钟这篇论文意味着大语言模型可以用于预测和设计mRNA疫苗，其中新设计的序列经过实验证实远高于传统疫苗的转录效率。AI和语言模型正在颠覆生物学和制药研究中的传统方法。普林斯顿王梦迪团队迎来了一项具有划时代意义的突破，该团队开发了世界首个解码mRNA非翻译区域序列的大模型，用于准确预测从mRNA到蛋白质的转录功能，及设计新序列用于mRNA疫苗。该...

2024-04-13 17:01:32 29

转载大语言模型中常用的旋转位置编码RoPE详解：为什么它比绝对或相对位置编码更好?...

来源：DeepHub IMBA本文约3000字，建议阅读9分钟本文将深入探讨旋转位置编码，以及它们如何巧妙地融合绝对位置嵌入和相对位置嵌入的优点。自 2017 年发表“ Attention Is All You Need ”论文以来，Transformer 架构一直是自然语言处理 (NLP) 领域的基石。它的设计多年来基本没有变化，随着旋转位置编码 (RoPE) 的引入，2022年标志着该领域...

2024-04-13 17:01:32 113

转载基于 7 大城市实景数据，清华大学团队开源 GPD 模型

本文约2700字，建议阅读9分钟清华大学电子工程系城市科学与计算研究中心提出 GPD 模型，利用扩散模型生成神经网络参数，将时空少样本学习转变为扩散模型的预训练问题。城市，是人们安居乐业的故土，是政府开展经济建设的基石，承载着细腻的人文情怀与宏伟的国家发展脉络。长期以来，管理者一直在探寻更加高效、科学的城市治理方法，解决不同地区资源供给不平衡、交通拥挤、人口流失等问题。在物联网、AI、大数据等技术...

2024-04-12 17:05:09 23

转载【CVPR2024】视觉-语言模型的高效测试时间调整

来源：专知本文为论文介绍，建议阅读5分钟我们设计了TDA，一个无需训练的动态适配器，使视觉-语言模型能够有效且高效地进行测试时间的适应性调整。在测试时使用预训练的视觉-语言模型进行适应性调整已经吸引了越来越多的关注，以解决测试时的分布偏移问题。尽管之前的研究已经取得了非常有希望的表现，但它们涉及到的计算量非常大，这与测试时间的适应性调整严重不符。我们设计了TDA，一个无需训练的动态适配器，使视觉...

2024-04-12 17:05:09 25

转载扩散模型+知识图谱的前沿综述

本文约7500字，建议阅读16分钟本文介绍了名为DiffKG的新的知识图谱扩散模型，结合了生成扩散模型与数据增强范式，实现了鲁棒的知识图谱表示学习。知识图谱（图网络）在推荐系统中的重要性不言而喻，但并非所有关系都与目标推荐任务相关。为解决这一问题，本文介绍了名为DiffKG的新的知识图谱扩散模型，结合了生成扩散模型与数据增强范式，实现了鲁棒的知识图谱表示学习。1 介绍推荐系统是现代网络领域的重要...

2024-04-12 17:05:09 37

转载血常规、尿检等指标就能识别卵巢癌！中山大学刘继红团队牵头，四大医学院联合构建 AI 融合模型...

本文约3000字，建议阅读5分钟中山大学肿瘤防治中心妇科刘继红教授团队，联合南方医科大学、华中科技大学同济医学院附属同济医院、浙江大学医学院附属妇产科医院，基于常规体检中的实验室检验，构建了卵巢癌诊断人工智能融合模型 MCF。根据国家卫生健康委员会发布的《卵巢癌诊疗指南（2022 版）》，我国卵巢癌年发病率居女性生殖系统肿瘤第 3 位，仅次于子宫颈癌和子宫体恶性肿瘤，病死率位于女性生殖道恶性肿瘤之...

2024-04-11 17:01:33 20

转载图神经网络(GNN)原理与应用

本文约3200字，建议阅读6分钟图神经网络（GNN）是一种深度学习的方法，特别擅长处理图结构的数据。图神经网络（GNN）是一种深度学习的方法，特别擅长处理图结构的数据。通过一些特别的节点和边的策略，GNN能把图数据变成神经网络能训练的标准格式。在节点分类、边信息传播和图聚类这些任务中，GNN表现得都特别好。相比于其他的图学习算法，GNN有着特别出色的学习能力，它擅长找到图数据中节点和边背后隐藏的...

2024-04-11 17:01:33 37

空空如也

空空如也