图学习小组-CSDN博客

原创 Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

注：本文不是OpenAI的官方技术报告。Sora是从文本到视频(T2V)的生成式人工智能模型，由OpenAI于2024年2月发布。该模型经过训练，可以从文本指令中生成逼真或富有想象力的场景视频，在模拟物理世界方面表现出潜力。本文基于公开的技术报告和逆向工程，对T2V人工智能模型的背景、相关技术、应用、存在的挑战和未来的发展方向进行了全面综述。考察构建Sora这个"世界模拟器"所使用的底层技术。讨论了广泛部署Sora需要解决的主要挑战和限制，例如确保安全和无偏见的视频生成。

2024-03-18 15:56:15 860

原创 The impact of chatbots based on large language models on second language vocabulary acquisition

近年来，大语言模型(LLMs)已经在自动化和增强教育任务方面展示了巨大的潜力，能够有效地捕捉人类语言的复杂性和多样性。本文旨在探究基于大语言模型的对话机器人在第二语言词汇学习方面的影响，将52名外语学生分为两组，实验组使用基于LLMs的聊天机器人，对照组则不使用。两组学生在八周的时间里学习相同的目标单词，待结束后进行评估，评估方式包括系统观察与定量测试。研究结果表明，使用基于LLMs的人工智能聊天机器人可以显著帮助学生在第二语言学习过程中获得接受性和生产性词汇知识。

2024-03-18 14:29:35 913

原创 PRewrite: Prompt Rewriting with Reinforcement Learning

工程化的启发式编写对于LLM（大型语言模型）应用的发展至关重要。然而，通常这种编写是以“试错”的方式手动进行的，这可能耗时、低效且不够优化。即使对于表现良好的提示，也总会有一个悬而未决的问题：是否可以通过进一步修改使提示更好？为了解决这些问题，我们在本文中研究了自动化的启发式编写。具体而言，我们提出了PRewrite，一种自动化方法，用于将未优化的提示重写为更有效的提示。我们使用LLM实例化提示重写器。重写器LLM经过强化学习训练，以优化给定下游任务的性能。

2024-03-04 18:18:49 1003

原创 Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models

在各种科学领域，分子发现起着至关重要的作用，推动了定制材料和药物的设计。传统的分子发现方法遵循试错过程，既耗时又昂贵，而计算方法，如人工智能（AI）已经成为加快各种任务，如分子字幕翻译的革命性工具。尽管分子字幕翻译对于分子发现的重要性，但现有的大多数方法严重依赖领域专家，需要过多的计算成本，并且表现不佳。另一方面，像ChatGPT这样的大型语言模型（LLM）在各种跨模态任务中表现出了出色的性能，因为它们在自然语言理解、泛化和推理方面具有强大的能力，这为推进分子发现提供了前所未有的机会。为了解决上述限制，我们

2024-01-09 15:24:41 927

原创 Making Large Language Models Perform Better in Knowledge Graph Completion

本文主要探讨了如何将有用的知识图谱结构信息融入大语言模型中，以实现大语言模型中的结构感知推理。基于大语言模型的知识图补全（KGC）旨在使用LLM预测KGs中缺失的三元组。但目前对基于LLM的KGC的研究有限，缺乏对LLM推理能力的有效利用，忽略了KGs中重要的结构信息，阻碍了LLM获得准确的事实知识。为解决这个问题，本文研究如何将有用的KG结构信息融入到LLM中，实现LLM的结构感知推理。首先将现有的LLM范式转移到结构感知设置中，提出了知识前缀适配器（KoPA）来实现这一目标。

2024-01-08 19:22:05 1239

原创 Unifying Large Language Models and Knowledge Graphs: A Roadmap

大型语言模型（LLMss），如ChatGPT和GPT4，由于其涌现的能力和通用性，正在自然语言处理和人工智能领域掀起新的浪潮。然而，LLMs是黑盒模型，它们往往无法捕捉和获取事实知识。相比之下，知识图（KGs）、维基百科和华普等，都是明确存储丰富事实知识的结构化知识模型。KG可以通过提供外部知识来增强LLMss为了进行推理和可解释性。同时，KGs在本质上难以构建和进化，这对KGs中现有的产生新的事实和代表看不见的知识的方法提出了挑战。因此，将LLMs和KG统一在一起，同时利用它们的优势是互补的。

2024-01-04 00:11:41 1884

原创 Talk Like a Graph: Encoding Graphs for Large Language Models

图是表示和分析现实世界应用中复杂关系的强大工具，如社交网络、推荐系统和计算金融。对图进行推理对于推断复杂系统中实体之间的关系，以及识别隐藏的模式和趋势是必不可少的。尽管在使用自然文本的自动推理方面取得了显著进展，但对使用大语言模型（LLM）的图推理仍然是一个有待研究的问题。这项工作对将图结构数据编码为文本以供LLM使用进行了首次全面研究。证明了LLM在图推理任务上的表现在三个基本层次上有所不同： (1)图编码方法，(2)图任务本身的性质，以及(3)考虑的图结构。

2023-12-18 20:22:08 1003

原创 GraphGPT： Graph Instruction Tuning for Large Language Models

图神经网络（GNN）通过图节点之间的递归信息交换和聚合来实现高级图结构理解。为了提高模型的稳健性，自监督学习（SSL）已成为一种有前途的数据增强方法。然而，现有的得到预训练图嵌入的方法通常要依赖特定下游任务的标签进行微调，这限制了它们在标记数据稀缺或不可用的场景中的可用性。为了解决这个问题，我们的研究重点是提高图模型在具有挑战性的零样本学习场景中的泛化能力。受大语言模型（LLM）的启发，我们的目标是开发一种面向图的 LLM，即使没有下游图数据中的任何可用信息，也可以在不同的下游数据集和任务中实现高度泛化。

2023-12-04 20:09:51 1264 2

原创 Multimodal Foundation Models: From Specialists to General-Purpose Assistants

近年来，人工智能领域在模型发展方面经历4个阶段，如图1所示。任务特定的模型是针对单个数据集和任务开发的，通常从零开始训练。通过大规模预训练，语言模型在许多既定的语言理解和生成任务上取得了先进的性能，为下游任务适配提供了基础。将各种语言理解和生成任务统一到一个模型中。随着网络规模的训练和统一，出现了一些新兴能力，如语境学习和思维链。随着人机对齐研究的进展，LLMs开始扮演通用助理的角色，以遵循人类的意图，完成类型广泛的语言任务。

2023-11-28 11:19:54 2172

原创 Can students without prior knowledge use ChatGPT to answer test questions? An empirical study

随着全球对ChatGPT的巨大关注，教育领域出现了兴奋和怀疑的态势。要正确评估ChatGPT对教育的影响，了解它在帮助没有先前知识的学生回答评估问题方面的潜力至关重要。本研究旨在回答这个问题以及问题类型的影响。我们对计算机工程专业的学生进行了多次实验（实验组：n = 41到56），要求他们在学习相关主题之前使用ChatGPT回答先前的测试问题。然后将他们的得分与先前学期在测验或考试环境中回答相同问题的学生的得分进行比较（对照组：n = 24到61）。

2023-11-12 13:50:43 21

原创分布式训练

在LLM的分布式训练中,因为其参数量过大,为了保证模型参数在各个服务器间的有效通信,舍弃了以往传统的多层树架构(交换机-交换机-机柜),选择采取胖树拓扑结构,试图实现网络带宽的无收敛.:此架构中没有中央服务器或控制节点,而是由节点之间进行直接通信和协调.节点间并行的进行训练和通信,可以显著降低通信开销减少通信墙的影响.,根据不同的通信库的在CPU,GPU上的对通信原语的支持情况不同,不同的分布式集群所采用的通信库也会不同.:主要包含训练服务器和,参数服务器.训练方式主要包含同步训练和异步训练.

2023-11-06 18:20:16 76

原创 LLaMA: Open and Efficient Foundation Language Models

本文介绍了LLaMA，是一个从7B到65B参数的基础语言模型集合。作者在数万亿计的token上训练该模型，证明了仅使用公开数据集也可以训练出SOTA级别的模型，而无需专有或未公开的数据集。最终实验结果显示，LLaMA-13B在大多数基准测试中要优于GPT-3(175B)，同时LLaMA-65B与最好的模型Chinchilla-70B、PaLM-540B相比具有竞争力。基于更多的参数会带来更好的性能这一假设，前人将模型越做越大。

2023-11-06 17:58:22 165

原创 LORAPRUNE: PRUNING MEETS LOW-RANK PARAMETER-EFFICIENT FINE-TUNING

大规模预训练模型（LPM），如LLaMA和GLM，通过微调在各种任务中显示出了卓越的性能。尽管参数高效微调方法（PEFT），如低秩适配器（LoRA）的出现降低了大模型微调的成本，但它们的部署仍然受到巨大的模型规模和计算成本的阻碍。神经网络剪枝（Pruning）提供了一种压缩LPM的方法，可以进一步降低模型的计算成本。因此，使用LoRA微调模型适配下游任务和压缩模型便于部署成为可以结合使用的两个工作。我们可以选择先进行微调，后训练剪枝，但这样分离调优和剪枝可能会导致次优的结果。

2023-11-06 17:45:40 404

原创 DrugChat: Towards Enabling ChatGPT-Like Capabilities on Drug Molecule Graphs

用于药物化合物分析的类似于chatgpt的系统可以加速药物发现，增强对结构-活性关系的理解，指导优化，帮助药物重新利用，降低失败率，并简化临床试验。在这项工作中，尝试通过开发一个系统DrugChat，在药物分子图上实现类似于chatgpt的功能。DrugChat的工作方式与ChatGPT类似。用户上传一个化合物分子图，并询问关于这个化合物的各种问题。DrugChat将以多回合、互动的方式回答这些问题。DrugChat系统由一个图神经网络GNN、一个大语言模型LLMs和一个适配器组成。

2023-10-30 20:53:14 165

原创 A deep-learning system bridging molecule structure and biomedical text with comprehension comparable

为了加快生物医学研究过程，开发了深度学习系统，通过读取大规模生物医学数据来自动获取分子实体的知识。受人类从分子结构和生物医学文本信息的多功能阅读中学习深度分子知识的启发，我们提出了一个知识渊博的机器阅读系统，该系统在一个统一的深度学习框架中连接这两种类型的信息，用于全面的生物医学研究辅助。我们解决了现有的机器读取模型只能单独处理不同类型的数据的问题，从而实现了对分子实体的全面和彻底的理解。

2023-10-16 17:20:51 120

原创 Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models

虽然大型语言模型在一系列下游任务中表现出卓越的能力，但一个重要的问题是它们表现出幻觉的倾向：LLMs偶尔会产生偏离用户输入、与先前生成的上下文相矛盾或与既定的世界知识相抵触的内容。这一现象对LLMs在真实场景中的可靠性提出了实质性的挑战。本文回顾了近年来在幻觉的检测、解释和缓解方面所做的努力，并强调了LLMs所带来的独特挑战。本文给出了LLM幻觉现象的分类和评估基准，分析了现有的旨在缓解LLM幻觉的方法，并讨论了潜在的发展方向。

2023-10-06 15:23:43 198

原创向量数据库介绍

Faiss的全称是Facebook AI Similarity Search，是FaceBook的AI团队针对大规模相似度检索问题开发的一个工具，使用C++编写，有python接口，对10亿量级的索引可以做到毫秒级检索的性能。Faiss实际是一个向量检索库，其目标是将我们自己的候选向量集封装成index数据库，在查询时它可以加速我们检索相似向量TopK的过程。但并不具有存储数据的能力，所有的检索都在内存中实现，数据需要存储在本地。

2023-09-22 14:56:06 258

原创 Learning Transferable Visual Models From Natural Language Supervision

本文提出CLIP（Contrastive Language-Image Pre-Training）模型，使用对比学习的方式，直接从关于图像的原始文本中学习图像特征，以此利用更广泛的监督来源。本文在从互联网上收集的4亿**（图像, 文本）对数据集上进行预训练，测试时使用自然语言引用学习到的视觉概念，将与输入图像最匹配的文本标题作为分类结果，实现模型向下游任务的零样本**迁移。

2023-07-27 19:37:27

原创 Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

论文阅读：这篇文章给出了一个全新的术语——delta tuning，对以往研究的一系列参数高效微调方法进行了分类与定义，并且通过实验分析了delta tuning方法的性能表现、收敛表现、高效性表现、泛化表现、迁移性表现，以及随模型规模增长的性能表现。对今后将大模型适配到特定下游任务这一过程，给出了更加高效的实现方法。

2023-07-19 10:29:06 279

原创 Large Language Models Encode Clinical Knowledge

大型语言模型在自然语言理解和生成方面表现出色，但医学和临床应用的质量标准很高。目前还没有一个统一而全面的自动评估模型在医疗知识应用上的基准数据集，为此作者提出MultiMedQA，包含了多个现有的开源数据集以及作者新提出的数据集，并针对各个数据集设计了针对性的多样的prompt，使用了包含的prompt策略。为了全面地对模型生成答案的质量进行人类对齐，提出。文章主要对经过instruct tuning的PaLM模型Flan-PaLM与各个其他的大模型在所提出的MultiMedQA数据集上进行对比。

2023-07-18 17:17:27 292 1

原创 ChatGLM

本文介绍了一种具有1300亿个参数的中英双语预训练语言模型—GLM-130B。这是对至少和GPT-3一样好的100b级模型的开源尝试，并揭示了这样规模的模型是如何成功地进行预训练的。在本文中，以模型GLM为基座模型，并介绍了GLM-130B的训练过程，包括其设计选择，训练策略的效率和稳定性，以及工程努力。最终的GLM-130B模型在广泛的流行英语基准上提供了显著优于GPT-3 175B，而性能优势在OPT-175B和BLOOM-176B中没有观察到。

2023-07-07 03:46:55 21

原创 ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge

在语言大模型百花齐放的当下，虽然各个模型都有着令人惊讶的表现，但仍然存在一些问题，比如模型容易产生错误的言论以及对事实的歪曲，这被称作"hallucination"，即“幻觉”。如何降低幻觉是通用语言模型领域在未来的一个重要的研究方向。在这篇文章中，作者用领域知识对语言大模型进行prompt微调，使得模型产生的回答具有权威依据。

2023-06-24 17:47:08 304

原创 AI Studio开课心得

该课程项目诣在使学生理解深度学习基本训练过程及掌握百度飞桨框架的基本使用方法。通过查阅已有相关论文，使用更深的网络模型（如VGG-16，ResNet-18等）、调节参数（如batch_size，learning_rate等）优化模型，提高识别准确率。在项目过程中，学生的自主学习能力、资料收集能力、动手实践能力均得到提高。在选定题目的过程中，学生的资料收集能力得到了锻炼。在开发过程中，学生的团队协作能力、动手实践能力也得到提高。

2023-06-08 15:40:30 75

原创 Drug–drug interaction prediction with learnable size-adaptive molecular substructures

药物-药物相互作用（DDIs）是指两种或两种以上不相容的药物一起使用对身体产生不良反应的相互作用。DDIs可能是由相关药物的化学成分引起的。基于药物化学知识，即药物是一个实体由不同的官能团/化学子结构决定所有的药代动力学（如何处理生物）和药效学（它如何影响组织）属性，并决定最终的相互作用。介绍了门控消息传递神经网络（GMPNN），从药物的分子图表示中学习不同大小和形状的化学子结构，用于一对药物之间的DDI预测。GMPNN中，边被认为是控制消息传递流的门，因此以一种可学习的方式划分子结构。

2023-05-09 19:50:29 337

原创 Molecular Representation Learning via Heterogeneous Motif Graph Neural Networks

研究分子图的特征表示学习问题。图神经网络在分子图的特征表示学习中有着广泛的应用。然而，现有的大多数方法都是单独处理分子图，而忽略了它们之间的连接，如基序级关系。为了解决这一问题，我们提出了一种新的分子图表示学习方法。特别地，我们构建了一个包含基序节点和分子节点的异构基序图。每个基序节点对应于从分子中提取的基序。然后，我们提出了一种异构基序图神经网络(HM-GNN)来学习异构基序图中每个节点的特征表示。我们的异构基序图也能够有效地进行多任务学习，特别是对于小分子数据集。

2023-04-29 11:07:52 315

原创 MobileNetV2: Inverted Residuals and Linear Bottlenecks

本文描述了一种新的移动架构MobileNetV2，它在多个任务和基准以及不同模型大小的范围上提高了移动模型的最新性能。本文还描述了在称为SSDLite的新框架中应用这些移动模型进行目标检测的有效方法。此外，本文演示了如何通过DeepLabv3的简化形式(文中称之为Mobile DeepLabv3 )构建移动语义分割模型。MobileNetV2是基于一个倒置的残差结构，其中的捷径连接在薄瓶颈层之间。中间扩展层使用轻量级的深度卷积来过滤特征作为非线性的来源。

2023-04-11 20:14:25

原创 ChemRL-GEM: Geometry Enhanced Molecular Representation Learning for Property Prediction

武松

2023-04-11 19:28:48 203

原创 Drug-drug Interaction Prediction with Graph Representation Learning

一种药物的药理活性可能会由于同时给药另一种药物而改变，从而导致未预料到的药物-药物相互作用(DDIs)。然而，现有的DDI预测方法在以下几个方面存在不足:(1)可扩展性:它们严重依赖于与药物相关的多种特征，导致在大规模的数据集中，大多数药物的重要特征是不可用的。(2)鲁棒性:他们的目标是在融合多种特征的情况下逼近交互概率。该模型可能对测试集的两两相似信息很敏感。在本文中，我们探索了图表示学习在更精确的DDI预测方面的应用，建立了一个全新的模型来解决这两个问题，实现了更高的性能，并保持了一定的可解释性。

2023-03-28 20:29:46 251

原创 Equivariant Subgraph Aggregation Networks

消息传递神经网络(MPNNs)是在图结构数据上进行深度学习的领先架构，很大程度上是因为它们的简单性和可伸缩性。但是，这些架构的表达能力是有限的。本文提出了一种新的框架，等变子图聚合网络(ESAN)来解决这个问题。虽然MPNN可能无法区分两个图，但它们通常包含可区分的子图。因此，作者建议将每个图表示为由一些预定义策略派生的一组子图，并使用合适的等变架构来处理它。作者开发了一维Weisfeiler-Leman (1-WL)的新变体用于图同构测试，并证明了这些新的WL变体在ESAN表达性上的下界。作者进一步证明E

2023-03-22 16:57:27 249

原创 MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

本文为移动和嵌入式视觉应用提供了一类称为MobileNets的高效模型。MobileNets基于一种精简的架构，使用深度可分离卷积构建轻量级深度神经网络。本文引入了两个简单的全局超参数，可以有效地权衡延迟和准确性。这些超参数允许模型构建者根据问题的约束条件选择合适大小的模型进行应用。本文提供了关于资源和准确性权衡的大量实验，并与其他流行的ImageNet分类模型相比，显示了强大的性能。此外，本文展示了MobileNets在广泛的应用和用例中的有效性，包括目标检测、细粒度分类、人脸属性和大规模地理定位。

2023-03-16 20:32:37 576

原创 MR-GNN: Multi-Resolution and Dual Graph Neural Network for Predicting Structured Entity Interactions

预测结构化实体之间的相互作用是许多任务的核心，如药物疗法和新材料设计。近年来，图神经网络变得越来越有吸引力。它们将结构化的实体表示为图，然后使用图的卷积操作从每个单独的图中提取特征。然而，这些方法存在一些局限性： i)网络只从每个节点的固定大小的子图结构（即，一个固定大小的接受域）中提取特征，忽略不同大小的子结构特征；ii)通过独立考虑每个实体提取特征，可能不能有效地反映两个实体之间的交互。

2023-03-16 19:52:15 327 1

原创 An effective self-supervised framework for learning expressive molecular global representations to d

在人工智能驱动的药物发现中，如何产生表达性的分子表征是一个基本挑战。图形神经网络（GNN）已成为一种强大的分子数据建模技术。然而，以前的监督方法通常受到标记数据稀缺和泛化能力差的影响。在这里，我们提出了一种新的基于分子预训练图的深度学习框架，名为MPG，它从大规模未标记分子中学习分子表示。在MPG中，我们提出了一种用于建模分子图的强大GNN MolGNet，并设计了一种有效的自我监督策略，用于在节点和图级别对模型进行预训练。在对1100万个未标记分子进行预训练后，我们发现MolGNet可以捕获有价值的化学

2023-03-10 19:32:16 134

原创 DeepGCNs: Can GCNs Go as Deep as CNNs?

这是一篇由KAUST的Guohao Li于2019年发表在ICCV会议上的论文。文章主要在解决传统GCN网络的梯度消失问题，以及训练更深的GCN网络上做出了贡献。

2023-03-07 18:21:53 466

原创 R2-DDI: 一种应用于DDI预测的关系感知的特征细化方法

摘要

2023-02-25 12:20:38 520

原创 Cross-dependent graph neural networks for molecular property prediction

CD-MVGNN

2023-02-19 21:04:59 245

原创 Multi-view Graph Contrastive Representation Learning for Drug-Drug Interaction Prediction

在预测药物-药物相互作用(DDI)方面，基于图的学习方法往往局限于挖掘视图内(inter-view)的药物分子结构，而忽略了药物视图间(intra-view)的相互作用关系，这对于捕获复杂的DDI模式至关重要。

2023-02-19 14:37:06 489

原创 Towards Understanding and Evaluating Structural Node (Survey)

综述：对于图的结构性嵌入的理解与评估

2023-02-18 22:06:37 120

原创 Structural Deep Embedding for Hyper-Networks

用超边对超网进行分解，提出了DHNE模型（Deep Hyper-Network Embedding），以学习有着不可分解的hyperedges的网络的嵌入表示。

2023-02-07 20:18:04 313

原创 Bilinear CNN Models for Fine-grained Visual Recognition

本文提出了双线性CNN，一种有效地将图像表示为两个CNN特征的池化外积的架构，该架构能有效用于细粒度识别任务中。这些模型捕获了局部的部件特征交互，类似于基于部件的模型，但也可以看作是一种无序的纹理表示。基于这种观察，本文提出了一类端到端可训练的双线性模型，这类模型在经典的图像表示上进行推广，如二阶池化、Fisher向量、局部聚合描述符和视觉词袋。这允许通过近似反演对学习到的模型进行特定领域的微调和可视化。通过大量的实验，本文展示了这些模型在各种细粒度、纹理和场景识别数据集上提供了更好的精度、速度和内存权衡。

2023-02-06 18:31:07 624

原创 Large-Scale Chemical Language Representations Capture Molecular Structure and Properties

预测化学分子的财产在许多应用中都非常重要，包括药物发现和材料设计。基于机器学习的模型有望实现比当前最先进的技术（如密度泛函理论计算或湿实验室实验）更准确、更快的分子性质预测。各种有监督的机器学习模型，包括图形神经网络，在分子性质预测任务中表现出了很好的性能。然而，广阔的化学空间和有限的属性标签使监督学习具有挑战性，需要学习通用的分子表示。最近，在大型未标记语料库上预训练的基于无监督变换器的语言模型在许多下游自然语言处理任务中产生了最先进的结果。受这一发展的启发，提出了编码器模型molformer

2023-02-02 23:07:43 186

空空如也

空空如也