AI生成曾小健-CSDN博客

原创大模型底层transformers源码解析(二)之 TrainingAugumentes实例，/src/transformers/training_args.py

Poe是用于控制训练循环的参数类，它通常用于 Hugging Face Transformers 库中的示例脚本。

2024-04-18 11:12:33 468

原创大模型底层 transformers源码解析之trainer.py

我会根据你提供的trainer.py源代码,用python的Graph包画出流程图,并着重介绍train()方法。- 将 inputs 通过 self._prepare_inputs 方法处理后传给 self.training_step。- 调用 optimizer.step() 和 lr_scheduler.step() 进行参数更新。计算总共需要训练的步数 max_steps 和 num_train_epochs。- 每 args.logging_steps 个步骤打印训练日志。

2024-04-17 17:32:46 649

原创 Llama-Factory 简介二，脚本详解 LLaMA-Factory/src/train_bash.py LLaMA-Factory/src/llmtuner/train/pt/workfl

│ ├── single_node.sh: 使用 Accelerate 进行单节点 LoRA 训练。│ ├── pretrain.sh: 基于 LoRA 进行增量预训练。│ ├── reward.sh: 基于 LoRA 进行奖励模型训练。│ ├── orpo.sh: 基于 LoRA 进行 ORPO 训练。│ ├── ppo.sh: 基于 LoRA 进行 PPO 训练。│ ├── dpo.sh: 基于 LoRA 进行 DPO 训练。

2024-04-17 15:36:07 247

原创机器学习评价指标：AUCPR/AUC-ROC、混淆矩阵、五折交叉

AUC-ROC的影响：AUC-ROC衡量的是模型在所有可能的阈值下的整体性能。模型性能的评估：在类别不平衡的情况下，AUC-PR比AUC-ROC更能反映模型在实际应用中的性能。使用适合不平衡数据集的算法：某些机器学习算法，如XGBoost、LightGBM等，具有处理不平衡数据集的能力，可以考虑使用这些算法。总之，当AUC-PR较低而AUC-ROC较高时，很可能是由于数据集存在类别不平衡问题。使用适合不平衡数据集的评估指标：除了AUC-PR，还可以使用其他适合不平衡数据集的评估指标，如。

2024-04-10 23:46:10 608

原创 EHR图增强：GCT与对‘患者群体图’进行无监督预训练以进行患者级别的预测

请仔细阅读这篇论文，继续总结这篇论文Unsupervised Pre-Training on Patient Population Graphs for Patient-Level Predictions，特别是在图构造，图训练方面请详细点500个患者的子图总之,本文首次将无监督预训练应用于患者群体图,并设计了相应的图构建方法、网络结构和预训练策略,为EHR数据的患者级别预测提供了新思路,特别在标注数据稀缺时能发挥较大作用。预训练学习到的群体级别的数据表征,可以更好地迁移到下游任务。

2024-03-29 16:48:51 623

原创 [论文解读]GraphCare：通过个性化知识图增强医疗保健预测GraphCare: Enhancing Healthcare Predictions with Personalized Knowle

临床预测模型通常依赖于患者的电子健康记录 (EHR)，但整合医学知识来增强预测和决策具有挑战性。这是因为个性化预测需要个性化知识图 (KG)，而很难从患者 EHR 数据生成这些知识图。为了解决这个问题，我们提出了GraphCare，一个使用外部 KG 来改进基于 EHR 的预测的框架。我们的方法从大语言模型（LLM）和外部生物医学知识图谱中提取知识来构建特定于患者的知识图谱，然后将其用于训练我们提出的双注意力增强（BAT）图神经网络（GNN）以进行医疗保健预测。在 MIMIC-III 和 MIMIC

2024-03-19 17:11:04 519

原创 [GCT源码解析与对比分析]Graph Convolutional Transformer tf vs Pytorch version

特征之间的条件概率。非常抱歉,我的表述有误。但两者的宗旨是一致的,即都是为了把外部的医疗领域知识,以先验条件概率的形式引入到模型中,来指导模型关注诊断-医嘱之间的关联性。总之,GCT利用掩码矩阵排除了EHR图中不可能存在的边,并利用从数据中计算的条件概率作为图结构的先验,通过与自注意力机制相结合,引导模型去学习EHR数据的隐含结构,从而更好地表示EHR数据。(1) 对所有的诊断代码d,治疗代码m和检验代码r,从所有的就诊记录中计算它们的条件概率p(m|d), p(d|m), p(r|m)和p(m|r)。

2024-03-19 09:46:23 686

原创 eICU-CRD、MIMIC 3数据集详解

eICU-CRD数据集的下载页面地址为获取数据之前需要取得麻省理工大学附属数据相关课程的合格证书，之后在PhysioNet上注册账号，提交证书并进行资格认证申请，在审核通过后方可进行下载。详细的步骤说明可见数据集共有31个csv格式的文件分别是'admissionDrug.csv', '这些表格涵盖了病人住院期间多个维度的详细信息详细说明文档可见接下来我们将逐个展开介绍。

2024-03-17 12:06:59 1172

原创 CORA 数据集精美可视化+详解番外篇：PyG框架及Cora数据集简介Obifold Consulting

CORA 数据集Cora 数据集包含 2708 份科学出版物，分为七类之一。引文网络由 5429 个链接组成。数据集中的每个出版物都由 0/1 值词向量描述，指示词典中相应词的不存在/存在。该词典由 1433 个独特单词组成。该数据集是图学习中的 MNIST 等价物，我们在其他文章的功能中明确地探索它，一次又一次地使用该数据集作为测试平台。下载并解压，以这edgelist是一个简单的表格，其中source引用了target因此一个节点是每个节点都有一个subject5行×1434列。

2024-03-11 10:05:26 1117

原创 Cora 数据集介绍+ALL in One,Multi task graph prompt， ProG代码解释

Cora数据集包含2708篇科学出版物， 5429条边，总共7种类别。数据集中的每个出版物都由一个0/1 值的词向量描述，表示字典中相应词的缺失/存在。该词典由 1433 个独特的词组成。意思就是说每一个出版物都由1433个特征构成，每个特征仅由0/1表示。

2024-03-04 11:31:32 537

原创 [GCT论文详解]Graph Convolutional Transformer学习电子健康记录EHR的图结构+github页面合集

电子健康记录 (EHR) 的有效建模正迅速成为学术界和工业界的一个重要话题。最近的一项研究表明，使用电子病历数据的图形结构（例如诊断和治疗之间的关系）可提高预测任务（如心力衰竭预测）的性能。然而，EHR 数据并不总是包含完整的结构信息。而且，当涉及到索赔数据时，结构信息一开始就完全不可用。在这种情况下，我们是否还能做得比仅仅将 EHR 数据视为扁平结构的特征包更好？在本文中，我们研究了在对 EHR 数据执行监督预测任务时联合学习 EHR 隐藏结构的可能性。

2024-02-26 23:23:38 679

原创我叫曾小健，开发第一线：新Windows与开发环境：大模型LLM/量化 Win-Mac统一快捷键体验

对于开发者用Windows来说，最大的建议就是不要用Windows，既然必须要用，那就来吧！！！

2023-07-24 10:45:24 207

原创 Ubuntu Linux AI大模型开发常用命令 - 更新中包括NVIDIA状态，和安装相关常用软件包，没事就背背

Ubuntu AI大模型开发常用命令 - 更新中包括NVIDIA状态，NVIDIA状态，实时更新：和安装相关常用软件包没事就背背，增加开发效率。

2023-06-21 11:28:05 275

原创大模型面试之：阿里的Qwen模型和Baichuan、LLaMA有什么区别

Qwen使用了SwiGLU激活函数RMSNorm对Transformer的输入进行归一化Qwen使用了AdamW优化器总的来说,Qwen、Baichuan和LLaMA在激活函数、位置编码、优化器、注意力机制等关键架构设计上都存在一定差异,这些差异可能会影响到模型的性能表现。

2024-04-18 15:57:50 709

原创大模型国产化适配7-华为昇腾LLM落地可选解决方案（MindFormers、ModelLink、MindIE）

本文的所有信息都是截止2024年4月最新的一些信息，如有不准确的地方欢迎讨论。总的来说，昇腾最近一年多经过海量大模型需求的洗礼，正在快速变得成熟和完善。希望国产AI芯片、AI软硬件生态越来越好。

2024-04-18 15:23:10 433

原创大模型面试-质量高 LLama2和chatGLM相对于transformer具体做了哪些优化？

1）

2024-04-18 14:27:14 422

原创 LlaMa-Factory源码解析之预训练workflow.py -＞ LLaMA-Factory/src/llmtuner/train/pt/workflow.py

python复制):run_pt此函数负责语言模型的预训练流程。它接受配置和参数，用于指定模型、数据、训练和微调的参数。callbacks可选的回调函数列表，可以用于训练过程中的自定义操作（例如，日志记录、保存检查点）。

2024-04-17 16:49:13 172

原创 LlaMa-Factory源码解析之 setup.py

整体来看，这段代码是一个典型的Python安装脚本，用于设置和安装一个专注于LLM微调的Python库。它通过定义函数来动态获取版本号和依赖，通过。，该库专注于大型语言模型（LLM）的微调。这段代码是一个典型的Python项目的安装脚本，采用了。判断是否直接运行该脚本。如果是直接运行，那么将执行。自动发现项目中的所有Python包。和安装Python包。函数，配置了包的各种属性，如包名。函数来配置包的安装和元信息。

2024-04-17 15:40:33 90

原创 Llama-Factory简介 github介绍页

可选的额外依赖项：deepspeed、metrics、unsloth、galore、vllm、bitsandbytes、gptq、awq、aqlm、qwen、modelscope、quality。[23/09/23] 我们在项目中集成了 MMLU、C-Eval 和 CMMLU 评估集。如果您在 Hugging Face 模型和数据集的下载中遇到了问题，可以通过下述方法使用魔搭社区。部分数据集的使用需要确认，我们推荐使用下述命令登录您的 Hugging Face 账户。如果您感兴趣请关注我们的。

2024-04-17 14:54:56 563

原创 Agent的九种设计模式

Thought -> Action -> Observation

2024-04-17 14:38:30 52

原创 Llama源码解析之tokenizer.py

类提供了使用SentencePiece模型对文本进行分词和编码/解码的功能。它的构造函数接受SentencePiece模型文件的路径,并在初始化时加载模型。在Python中，类是创建对象（特定数据结构）的蓝图，它封装了数据和操作这些数据的函数。方法将字符串编码为标记ID列表,可以选择在序列的开头和结尾添加特殊的BOS和EOS标记。的Python类,用于使用SentencePiece模型对文本进行分词和编码/解码。是一个字符串类型的参数，它指定了SentencePiece模型文件的路径。

2024-04-17 14:29:51 606

原创对话 MiniMax 闫俊杰：AGI 不是大杀器，是普通人每天用的产品

闫俊杰：过程很痛苦，失败了两次。因为我们本来就有很多不确定性，做新东西又增加了不确定性，它就应该遇到挑战。比如模型训了半个月，发现一些指标离前期估测的越来越远。就像你发了一个火箭，本来以为它可以到三万米，但它偏航了。你就开始想哪个地方错了，把问题解完之后，发现还没有回到一个好的状态，又失败了。但你得到了很多经验，把经验汇聚起来，再来一次。每一次都是很多钱，更重要的是时间。我后来发现其实这也不是赌，因为很多挑战不是 MoE 本身带来的，而是更多底层的东西：比如对实验方法、网络和数据结构的探索等等。

2024-04-17 13:55:50 664

原创 Llama源码解析之example_chat_completion.py + Llama github界面

完成此操作后，您应该可以在 1 小时内访问某个版本的所有 Llama 模型（Code Llama、Llama 2 或 Llama Guard）。这个程序展示了如何使用预训练的语言模型(可能是类似GPT的模型)生成给定对话的完成。我们最新版本的 Llama 现在可供个人、创作者、研究人员和各种规模的企业使用，以便他们能够负责任地实验、创新和扩展他们的想法。我们的模型和权重已获得研究人员和商业实体的许可，坚持开放原则。一旦您的请求获得批准，您将通过电子邮件收到签名的 URL。模型并运行推理的最小示例。

2024-04-17 11:39:51 535

原创比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

LISA 算法的核心在于：- 始终更新底层 embedding 和顶层 linear head；- 随机更新少数中间的 self-attention 层，比如 2-4 层。出乎意料的是，实验发现该算法在指令微调任务上超过 LoRA 甚至全参数微调。更重要的是，其空间消耗和 LoRA 相当甚至更低。70B 的总空间消耗降低到了 80G*4，而 7B 则直接降到了单卡 24G 以下！

2024-04-17 10:57:08 685

原创 ICLR 2024 | 一种全新的大语言模型自我检查方法方法

为了解决这个问题，来自牛津大学的研究团队提出了一个通用、零样本验证方法SelfCheck，可用于验证各种推理中发现推理步骤的潜在错误。针对一个具有多步推理的问答过程，SelfCheck使用“目标提取”、“信息收集”、“推理重塑”和“结果对比”四阶段方法验证每个推理步骤的正确性，并提出集成方法综合每个推理步骤的验证成果，并最终用于同一问题下多个答案的加权表决选择。SelfCheck使用数学和逻辑推理领域的代表性数据集进行实验。

2024-04-17 10:52:31 529

原创微软 Microsoft AI 全景解析

作为全球范围内软件和企业服务的头牌大厂，微软在AI领域拥有广泛的产品和服务体系，涵盖了从基础的机器学习工具到高级的企业级智能应用平台。数十年来，微软持续在AI相关领域进行基础研究和投入，微软研究院在自然语言处理、语音识别、计算机视觉等领域拥有强大的研究基础和技术积累，为开发者和企业提供了丰富的选择和解决方案支持，推动着全球人工智能技术的发展和应用落地。微软强调AI技术和解决方案能帮助企业和组织在各个层面优化运营并发现新的价值机会。

2024-04-17 10:25:47 415

原创大语言模型研究热点

Lion: Adversarial Distillation of Proprietary Large Language Models》提出了一种新颖的对抗性蒸馏框架，以实现更有效的知识转移，论文使用 7 万个训练数据就成功地将知识从 ChatGPT 转移到了学生模型Lion，实现了与 ChatGPT 相当的开放式生成能力；论文通过量化和知识提炼压缩模型对大模型中社会偏见的影响进行了控制研究；原创爱吃牛油果的璐璐。

2024-04-17 10:18:49 379

原创多agent思想显著提升小模型工具调用能力

结论1: 多LLM代理框架（例如本文的Planner、Caller、Summarizer）能够克服传统单个LLM在工具学习方面的性能限制，通过模块化的方法分解任务，可以利用小型LLMs构建特定能力，并且更容易更新和维护。结论2: 多阶段微调比单阶段微调效果更好。与单阶段微调的多 LLM（Multi-LLM one-stage）和多任务微调的单一大型语言模型（Single-LLM multi-task）相比，α-UMi 展现了更好的性能，说明 GLPFT 策略在提升模型性能方面的有效性。

2024-04-17 10:00:31 789

原创大模型部署综述

早期LLM的部署系统（如英伟达Triton上的FasterTransformer）只支持request- level scheduling，然后Orca考虑到可变的输出序列长度, 开始采用first-come-first-serve (FCFS)的顺序按迭代粒度计划engine的执行，同时配合批处理来提高硬件利用率，后来vLLM和RayLLM延续了这种做法使用continuous batching，以及TensorRT-LLM使用的Inflight batching。

2024-04-17 09:56:11 688

原创大模型参数量都是7B，13B和65B等背后的原因是什么？

模型训练时间可以估算：6TP/(n*X*u)，其中X是计算显卡的峰值FLOPS，n为卡的数量，u为利用率。以LLaMA-65B为例，在2048张80GB显存的A100上，在1.4TB tokens的数据上训练了65B参数量的模型。其参数量受到隐藏层维度，层数，注意力头数等影响，而这些参数取值既参考GPT-3，也是结合。就是这么干的，然后，Meta借鉴了OpenAI的做法，推出了llama的7B，13B，33B，65B四个尺寸。网络上有很多解释，笔者结合自己的理解，分享其中可能的原因。

2024-04-17 09:40:05 642

原创常用的一款免费流程图软件，非常强大，值得推荐draw.io

前面说过，Draw.io是一款免费的流程图绘制工具，你可以在本地或者云端创建和分享各种流程图。Draw.io不受平台限制，支持直接在网页浏览器中使用Draw.io，也可以下载客户端，或者使用Vscode、Jupyter Lab插件，你觉得哪种方便就用哪种，可以说非常的宠爱用户了。它提供了一个类似画板的直观的拖放界面，你可以通过选择预设的形状和连接线来快速构建流程图，因此具有很大的可定制空间。

2024-04-16 23:24:26 938

原创大模型常见面试题 - 常用微调方法LORA和Ptuning的原理

Stable Diffusion 总共包含三个主要的组件，其中每个组件都拥有一个独立的神经网络1）Clip Text 用于文本编码。输入：文本输出：77 个 token 嵌入向量，其中每个向量包含 768 个维度2）UNet +Scheduler 在信息（潜）空间中逐步处理 / 扩散信息。输入：文本嵌入和一个由噪声组成的初始多维数组（结构化的数字列表，也叫张量 tensor）。输出：一个经过处理的信息阵列3）自编码解码器（Autoencoder Decoder），使用处理过的。

2024-04-16 23:22:53 679

原创复现论文《GPT-4 无法推理》

ChatGPT 更高水平的认知能力一直让我着迷。自 OpenAI 推出以来，这一话题引发了无数争论，但大多数评论都是片面的。最近，我看到 Konstantine Arkoudas 的预印论文arxiv，并对问题陈述的巧妙范围界定、仅关注演绎推理以及提出的平衡观点感到惊讶。然后我决定重现论文中的所有实验，从头到尾。有两个动机：首先，通过所有实验可以帮助我直接观察 ChatGPT 在演绎推理中的表现；其次，我想看看 ChatGPT 是否有改进，如果有，改进的形式是什么。

2024-04-16 10:35:52 346

原创基于LLM的AI Agent架构设计统一框架

它不仅能够模拟人类的交流方式，还能在复杂的环境中执行多样化的任务。AI Agent的作用日益凸显，从提供个性化推荐到辅助决策，再到自动化的流程管理，它们的应用范围正在不断扩大。然而，要充分发挥AI Agent的潜力，我们需要一个有效的架构设计，以确保它们能够更好地理解和适应所处的环境。Profile Module：此模块的目标是集中关于真实人类的信息，并将其组织成自然语言提示，以构建详尽的Profile。通过统一的记忆结构，AI Agent能够存储和回忆与用户相关的信息，从而提供更加个性化的服务。

2024-04-16 10:18:18 264

原创不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手｜Karpathy转赞

现在，巧妙的想法是使用一个小而廉价的草稿模型，首先生成一个由K个token组成的候选序列——「草稿」。这在实践中行之有效的原因是，大多数情况下，draft token都会被接受，因为是简单的token，所以即使是更小的草稿模型也能接受它们。在单个输入token上转发LLM所需的时间，与在K个输入token上批量转发LLM所需的时间相同（K比你想象的要大）。如果有分歧，我们就会扔掉草稿模型，承担做一些一次性工作的成本（对草稿模型进行采样，并对后面的token进行前向传递）。LLM在推理时是受内存限制。

2024-04-15 23:23:52 816

原创北大开源最强aiXcoder-7B代码大模型！聚焦真实开发场景，专为企业私有部署设计

随着代码大模型的能力日益增强，它们在解决复杂编程问题上的卓越表现，不仅在提高软件开发的效率和质量上发挥着重要作用，在推动编程自动化的浪潮中扮演着关键角色，更激发了程序员们的创新潜能，让他们能够将更多的精力投入到探索和创造中。例如，正在进行数智化转型的某行业头部券商就采用了aiXcoder的大模型解决方案，在本地环境私有化部署代码大模型，且采用了模型的灵活调整方式，使智能开发系统与使用团队规模保持同步。同时，这些内容又都有私密性。因此，私有化部署和学习是不可避免的，而且，通常企业的部署资源是又是有限的。

2024-04-15 23:18:19 917

原创微软的GraphRAG：智能问答系统的革命

通过将AI生成的知识图与私人数据集集成，GraphRAG承诺通过专注于上下文相关性的重要性来提高响应的准确性，这是长期困扰研究人员和用户的挑战。这种方法上的创新意味着与传统RAG系统的分道扬镳，后者通常依赖于固定的文件或数据源，限制了它们适应新问题或复杂问题的能力。面对跨多个领域的复杂问题或需要精细化理解的情况，这些系统常常出现问题，提供的答案虽然在技术上是正确的，却错失了被问到的问题的本质。随着这项技术的发展，类人理解和AI之间的界限可能会变得模糊，重新定义我们与技术以及推动我们世界的信息之间的关系。

2024-04-15 23:10:56 495

avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip

空空如也