寻道码路，探索编程之路的无限可能。

在这里，我将带你深入AI大模型的内部世界，揭秘学习过程中的洞见和挑战。分享我在系统架构和编程实践中的经验，一起探索AI技术的深度和广度。加入我，一起学习、成长，塑造技术的未来！

原创 AI大模型探索之路-训练篇17：大语言模型预训练-微调技术之QLoRA

在深度学习的不断进步中，大型语言模型（LLMs）的预训练和微调技术成为了研究的热点。其中，量化技术以其在模型压缩和加速方面的潜力备受关注。本文将深入探讨QLoRA（Quantized Low-Rank Adaptation）技术的原理、实践及应用。

2024-05-08 07:50:01 1267 128

原创 AI大模型探索之路-训练篇16：大语言模型预训练-微调技术之LoRA

在自然语言处理领域，大语言模型的预训练-微调技术已经成为一种常见的方法。其中，LoRA（Low-Rank Adaptation）是一种新颖的微调技术，通过引入低秩矩阵来调整模型的行为，以提高模型在新任务上的表现。本文将对LoRA的原理、优势以及应用进行详细介绍。LoRA是一种新颖的微调技术，通过引入低秩矩阵来调整模型的行为，以提高模型在新任务上的表现。它具有参数高效、计算复杂度低等优点，因此在自然语言处理领域具有广泛的应用前景。

2024-05-07 09:17:52 1528 59

原创 AI大模型探索之路-训练篇15：大语言模型预训练之全量参数微调

在自然语言处理（NLP）领域，预训练模型的应用已经越来越广泛。预训练模型通过大规模的无监督学习，能够捕捉到丰富的语言知识和上下文信息。然而，由于预训练模型通常需要大量的计算资源和时间进行训练，因此在实际使用时，我们往往需要对预训练模型进行微调，以便更好地适应特定的任务需求。本文将介绍全量参数微调的方法，以及如何在实践中进行操作。

2024-05-06 07:26:25 3327 181

原创 AI大模型探索之路-训练篇14：大语言模型Transformer库-Trainer组件实践

在自然语言处理（NLP）的领域中，Hugging Face的Transformer库已经成为了一个不可或缺的工具。它不仅提供了大量预训练模型，还为我们构建了一个高效、灵活的训练框架——Trainer组件。随着人工智能技术的不断进步，Agent AI智能体的智能化水平正在不断提高，它们在未来社会中的角色、发展路径以及可能带来的挑战也引起了广泛关注。Trainer组件的实践应用，正是推动这一进程的关键因素之一。

2024-05-06 07:25:35 1067 6

原创 AI大模型探索之路-训练篇13：大语言模型Transformer库-Evaluate组件实践

在自然语言处理（NLP）技术的迅猛发展过程中，基于深度学习的模型逐渐成为了研究和工业界解决语言问题的主流工具。特别是Transformer模型，以其独特的自注意力机制和对长距离依赖的有效捕捉能力，在多个NLP任务中取得了革命性的突破。然而，随着模型变得越来越复杂，如何准确评估模型的性能，理解模型的优势与局限，以及指导进一步的模型优化，成为了一个挑战。

2024-05-05 08:29:13 2676 45

原创 AI大模型探索之路-训练篇12：语言模型Transformer库-Datasets组件实践

在AI语言模型学习任务中，数据是至关重要的部分。一个高质量的数据集不仅决定了模型的上限，还影响着模型训练的效率和效果。然而，获取、处理和组织数据往往耗时耗力。为了简化这一过程，Hugging Face推出了Datasets组件，它集成了多种公开数据集，支持在线加载、筛选和预处理等功能。通过本文的介绍，我们将了解到如何利用Datasets组件快速加载和处理数据，为模型训练打下坚实基础。本文将从在线加载数据集开始，逐步介绍如何查看、划分、选取、过滤和映射数据集。

2024-05-04 15:41:12 2466 136

原创 AI大模型探索之路-训练篇11：大语言模型Transformer库-Model组件实践

本文将介绍transformers库中的Model组件，包括不同类型的预训练模型、Model Head以及如何调用这些模型进行推理。通过本文的介绍，读者可以更好地理解和应用transformers库中的Model组件。

2024-05-03 21:50:37 1610 30

原创 AI大模型探索之路-训练篇10：大语言模型Transformer库-Tokenizer组件实践

在自然语言处理（NLP）的世界里，文本数据的处理和理解是至关重要的一环。为了使得计算机能够理解和处理人类的自然语言，我们需要将原始的、对人类可读的文本转化为机器可以理解的格式。这就是Tokenizer，或者我们常说的分词器，发挥作用的地方。

2024-05-02 18:04:48 2407 147

原创 AI大模型探索之路-训练篇9：大语言模型Transformer库-Pipeline组件实践

在人工智能和机器学习领域，Pipeline是一种设计模式，它将多个处理步骤串联起来，形成一个有序的、自动化的工作流程。这一概念在自然语言处理（NLP）尤其重要，因为NLP任务通常涉及多个阶段，如文本清洗、特征提取、模型训练或预测等。Pipeline的设计旨在减少重复代码、提高代码的可维护性，并优化整个处理流程的效率。

2024-05-01 19:10:03 1921 49

原创 AI大模型探索之路-训练篇8：大语言模型Transformer库-预训练流程编码体验

在深入探索Transformer库及其高级组件之前，我们先手工编写一个预训练流程代码。这一过程不仅有助于理解预训练的步骤和复杂性，而且能让您体会到后续引入高级组件所带来的开发便利性。通过实践，我们将构建一个情感分类模型，该模型能够接收文本评价并预测其是正面还是负面的情感倾向。通过上述步骤，我们手工完成了基于Transformer库的情感分类模型预训练流程。虽然这个过程涉及了大量细节和代码编写，但它为我们提供了宝贵的洞见，让我们了解了从原始数据处理到模型训练和验证的整个流程。

2024-04-30 19:09:04 2839 127

原创 Agent AI智能体：未来社会的无形引领者

在数字化时代的浪潮中，人工智能（AI）正以其无与伦比的速度和规模重塑我们的世界。作为AI领域的关键构成，智能体(Agent AI)正日益成为推动这场变革的先锋。它们不仅在技术上展现出惊人的潜力，更在社会、经济乃至文化层面产生深远影响。随着科技的不断进步，智能体的发展趋势与潜在影响已成为全球关注的焦点。智能体之所以能吸引如此广泛的关注，归功于其自主性、交互性和适应性——它们能够感知环境，做出决策并执行任务，有时甚至能超越人类的极限。

2024-04-30 12:50:00 1125 22

原创 AI大模型探索之路-训练篇7：大语言模型Transformer库之HuggingFace介绍

在的官方网站上，您可以发现一个丰富的开源宝库，其中包含了众多机器学习爱好者上传的精选模型，供大家学习和应用。此外，您也可以将自己的模型分享至社区，与他人共同进步。HuggingFace因其开放和协作的精神被誉为机器学习界的GitHub。在这里，用户能够轻松获取到Transformers库里各式各样的组件资源，助力各类机器学习项目的实现和发展。

2024-04-29 07:52:28 2411 129

原创 AI大模型探索之路-训练篇6：大语言模型预训练数据准备-预处理

随着人工智能技术的不断发展，大语言模型在自然语言处理、机器翻译、文本生成等领域取得了显著的成果。然而，训练一个高性能的大语言模型需要大量的高质量预训练数据。本文将详细介绍大语言模型预训练数据准备的各个环节，包括数据来源、质量过滤、去重过滤、敏感过滤以及数据影响分析等。希望通过本文的介绍，能够帮助读者更好地理解和应用大语言模型预训练数据的准备过程。大语言模型预训练数据准备是实现高性能模型的关键步骤。本文从数据来源、质量过滤、去重过滤、敏感过滤以及数据影响分析等多个方面进行了详细的介绍。

2024-04-28 10:30:26 2191 49

原创 AI大模型探索之路-训练篇5：大语言模型预训练数据准备-词元化

大语言模型训练需要数海量的各类型数据。如何构造海量“高质量”数据对于大语言模型的训练具有至关重要的作用。训练数据是影响大语言模型效果以及样本泛化能力的关键因素之一。通常预训练数据需要涵盖各种类型，包括网络数据、图书、论文、百科和社交媒体等，还需要覆盖尽可能多的领域、语言、文化和视角，从而提高大语言模型的泛化能力和适应性。本章将介绍常见的大语言模型训练数据的来源、数据处理、预训练数据对大语言模型影响的分析以及常见开源数据集合等。

2024-04-27 06:30:00 2323 64

原创程序员的抗压宝典：10大实用策略，让你轻松应对工作压力

作为一名资深程序老猿，我深知程序员面临的工作压力。希望，通过上述10个小窍门，你可以更好地管理你的工作和生活。记住，缓解工作压力不是一夜之间就能实现的，它需要时间和持续的努力。但只要你坚持实践这些策略，你会发现自己能够更加从容地应对工作中的挑战，享受编程带来的乐趣。

2024-04-27 06:00:00 825 1

原创 AI大模型探索之路-训练篇4：大语言模型训练数据集概览

在人工智能领域，构建强大的AI系统的关键步骤之一是大规模的语言模型预训练。为了实现这一目标，需要大量且多样化的训练数据。以下是对目前常用于训练大语言模型的数据集的整理与概述。

2024-04-26 17:20:41 1684 18

原创探索AIGC的无限可能：引领人工智能生成内容的未来

在数字化浪潮的推动下，人工智能技术正以前所未有的速度重塑我们的生活和工作方式。AIGC（人工智能生成内容）作为人工智能领域的一颗璀璨新星，正在以其独特的魅力吸引着全球的关注。AIGC涉及利用人工智能算法自动或半自动地生成具有创意的内容，包括文字、图像、音频甚至视频。从专业角度来看，AIGC结合了机器学习、大数据分析、自然语言处理等技术，通过模仿人类的创作过程，实现对内容的自动生成和编辑。

2024-04-26 08:44:58 603 9

原创 AI大模型探索之路-训练篇3：大语言模型全景解读

大规模语言模型（Large Language Models，LLM），也称大语言模型或大型语言模型，是一种由包含数百亿以上参数的深度神经网络构建的语言模型，通常使用自监督学习方法通过大量无标注文本进行训练。

2024-04-25 07:46:35 3197 141

原创 AI大模型探索之路-训练篇2：大语言模型预训练基础认知

在人工智能的宏伟蓝图中，大语言模型（LLM）的预训练是构筑智慧之塔的基石。预训练过程通过调整庞大参数空间以吸纳数据中蕴含的知识，为模型赋予从语言理解到文本生成等多样化能力。本文将深入探讨预训练过程中的技术细节、所面临的挑战、通信机制、并行化策略以及如何通过这些技术的融合提升预训练的效率和性能。预训练大语言模型是一项既富有挑战又极具价值的工作。随着模型规模的不断扩大和数据量的激增，如何高效地进行预训练已经成为了AI研究的核心议题。

2024-04-24 08:15:14 2707 96

原创 AI大模型探索之路-训练篇1：大语言模型微调基础认知

在人工智能的广阔研究领域内，大型预训练语言模型（Large Language Models, LLMs）已经成为推动技术革新的关键因素。这些模型通过在大规模数据集上的预训练过程获得了强大的语言理解和生成能力，使其能够在多种自然语言处理任务中表现出色。然而，由于预训练过程所产生的模型通常具有泛化特性，它们往往无法直接适配到特定的应用场景和细化需求中。为了弥补这一差距，研究人员提出了微调（Fine-tuning）技术。该技术允许模型通过学习额外的、与特定任务相关的数据，从而增强其在特定领域的表现力。

2024-04-23 10:18:46 2595 46

原创 AI大模型探索之路-资料篇：大模型开发相关地址信息收藏

本文的核心目的在于梳理和汇编大型模型开发领域内的相关资料与资源。通过集中整理这些信息，为后续大模型语言应用开发实践提供一个便捷的知识库和参考入口。

2024-04-23 10:17:05 685 8

原创 AI大模型探索之路-实战篇3：基于私有模型GLM-企业级知识库开发实战

在当今信息时代，数据已经成为企业的核心资产之一。对于许多企业而言，信息安全和私密性是至关重要的，因此对外部服务提供的数据接口存在天然的警惕性。因此常规的基于在线大模型接口落地企业知识库项目，很难满足这些企业的安全需求。面对这样的挑战，只有私有化的部署方案才能满足企业需求；在实战篇2中《AI大模型探索之路-实战篇2：基于CVP架构-企业级知识库实战落地》，设计实现了基于CVP架构的企业知识库。本篇文章中将对企业知识库进行进一步的改造升级，以满足企业安全性方面的需求；

2024-04-22 08:22:25 2490 91

原创科学中的概率大师：Avi Wigderson 教授的图灵奖探索

在计算机科学的辽阔星空中，随机性与伪随机性犹如迷人的双子星座，挑战着我们的智力边界。普林斯顿大学理论计算机科学的杰出教授，是这片星空中的领航者。他不仅勾勒出了这些概念的轮廓，更深入揭示了它们的本质和作用。2023年，因其在这一领域的开创性工作，Wigderson 教授荣获了图灵奖——这是对其职业生涯的最高肯定。在这段激情与智慧交织的旅程中，我们将一同走进 Wigderson 教授的世界：从他的个人背景，到他对计算随机性的深刻理解，再到他的研究如何影响了学术界和工业界。

2024-04-22 08:15:57 667 5

原创 AI大模型探索之路-实战篇1：基于OpenAI智能翻译助手实战落地

在全球化的浪潮中，语言翻译需求日益增长。市场上涌现出各式各样的翻译工具和平台，然而，免费的解决方案往往局限于简短文本的翻译。面对长篇文档，用户通常不得不转向付费服务。鉴于大型预训练语言模型（LLMs）在自然语言翻译上的显著优势，利用这些模型打造一款高效、经济的翻译工具，不仅能满足市场需求，同时亦具备极高的商业潜力与数据安全性。

2024-04-21 13:22:09 1680 32

原创程序员的技术成长之路

在数字化时代的浪潮中，编程已成为一门不可或缺的技能。它如同魔法一般，让抽象的思维转化为具体的应用，将想象中的世界变为现实。然而，掌握这门技艺并非一蹴而就，它需要时间、实践和不断的学习。本文将带你领略程序员编程世界的成长之路，从一名懵懂的新手成长为一位熟练的专家。

2024-04-21 13:16:35 1038 1

原创 AI大模型探索之路-应用篇17：GLM大模型-大数据自助查询平台架构实践

在众多大型企业中，数据资产庞大无比，因此它们纷纷构建了多种大数据平台。然而，关键在于如何高效地利用这些数据，例如，将数据有效地提供给产品经理或数据分析师以供他们进行设计和分析。在传统工作流程中，由于这些角色通常不是技术专家，他们往往无法直接使用和操控SQL，导致必须依赖技术人员来编写SQL查询并返回结果，然后才能由产品经理、数据分析师或其他相关人员进一步处理。

2024-04-20 07:43:10 3187 45

原创 AI大模型探索之路-应用篇16：GLM大模型-ChatGLM3 API开发实践

本章节旨在深入探索ChatGLM3所提供的丰富API接口，不仅覆盖GLM特有的代码风格API开发实践，还包括遵循OpenAI风格的API开发方式。我们将通过具体的操作步骤和实际案例，详细阐述如何利用核心工具Function Call来扩展模型功能，以及如何将这种强大的功能直接应用于实际应用中。随着内容的展开，读者将逐步掌握如何灵活使用ChatGLM3-6B的强大功能，开发出智能化的解决方案，满足不断变化的业务需求。

2024-04-19 07:36:56 1016 26

原创【技术变现之道】如何打造IT行业的超级个体？

在IT行业，成为超级个体并非遥不可及的梦想。关键在于发现并解决他人的痛点，将你的专业知识和技能转化为他人愿意为之付费的产品或服务。只要敢于创新，勇于实践，你的技术和想法就能在这个充满机遇的行业中找到自己的市场定位。现在就开始吧，让你的知识价值最大化，开辟属于你自己的IT超级个体之路！

2024-04-18 21:43:06 1941 13

原创 AI大模型探索之路-应用篇15：GLM大模型-ChatGLM3-6B私有化本地部署

ChatGLM3-6B 是 OpenAI 推出的一款强大的自然语言处理模型，它在前两代模型的基础上进行了优化和改进，具有更高的性能和更广泛的应用场景。本文将从技术角度对 ChatGLM3-6B 进行详细介绍，包括其特点、资源评估、购买云服务器、git拉取GLM、pip安装依赖、运行测试以及本地部署安装等方面的内容。希望通过本文的介绍，能够帮助大家更好地理解和使用 ChatGLM3-6B 模型。

2024-04-18 08:01:45 5239 78

原创 AI大模型探索之路-应用篇14：认识国产开源大模型GLM

在人工智能的浩瀚宇宙中，开源大模型如同璀璨星辰，引领着技术创新与应用探索的方向。国际领域的OpenAI无疑闪耀着夺目的光芒，但国内厂商亦步亦趋，逐渐展露头角。今天，我们将聚焦于国内主流的大模型，探寻它们的技术脉络与应用潜力，并特别解析智谱AI研发的GLM大模型系列，见证中国在全球AI舞台上的坚实步伐。

2024-04-17 08:36:46 2890 62

原创 AI大模型探索之路-应用篇13：企业AI大模型选型指南

在打造企业AI大模型的路上，我们常常会遇到一系列的选型和概念挑战。例如，如何选择合适的模型，如何挑选GPU，以及什么是微调和监督微调等。本文旨在深入剖析这些常见问题，为大家提供一个全面的概览，帮助大家更好地理解和利用这些强大的工具。

2024-04-16 08:26:37 2762 48

原创 AI大模型探索之路-提升篇2：一文掌握AI大模型的核心-注意力机制

在人工智能的壮丽舞台上，AI大模型扮演着主角的角色，而注意力机制（Attention Mechanism）则如同这位主角的明亮双眼，为其提供了前所未有的洞察力。特别是在自然语言理解（NLU）的领域，注意力机制已成为推动技术革新的重要驱动力。本文旨在深入浅出地探讨注意力机制的核心原理、不同变体，以及它在提升AI大模型自然语言理解能力中的举足轻重之处。

2024-04-15 08:17:34 1404 40

原创 AI大模型探索之路-实战篇2：基于CVP架构-企业级知识库实战落地

在当今信息时代，企业的知识管理变得日益重要。随着人工智能技术的飞速发展，企业知识库的构建和维护已经从传统的文档存储和关键词检索演变为更加智能化、高效化的知识服务。CVP架构模式，作为一种结合了强大的语言理解和快速信息检索能力的先进框架，为企业提供了一个实现这一目标的有效途径。本文将深入探讨如何基于CVP（ChatGPT + VectorDB + Prompt）架构实现企业级知识库项目的落地，以及在实际过程中的应用特点和技术细节。

2024-04-14 11:33:30 2066 21

原创 AI大模型探索之路-应用篇12：AI大模型应用之向量数据库选型

随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。引言随着人工智能技术的不断发展，AI大模型在各个领域的应用越来越广泛。而在处理大规模数据时，传统的关系型数据库已经难以满足需求。这时，一种名为“向量数据库”的新型数据库应运而生，它以高效、灵活的特点成为了AI大模型开发中的重要工具。

2024-04-14 08:31:12 1033 1

原创赋能未来：AI技术革新中的创业契机

随着人工智能（AI）技术的快速发展，越来越多的创业者开始关注这个领域。AI技术作为当今科技创新的前沿领域，为创业者提供了广阔的机会和挑战。本文将探讨AI技术创业的三大方向及其潜在机会。

2024-04-13 10:11:58 658 2

原创 AI大模型探索之路-应用篇11：AI大模型应用智能评估（Ragas）

随着人工智能技术的飞速发展，AI大模型（LLM）已经成为了推动技术创新和应用的关键因素。这些大模型在语言理解、图像识别、自然语言生成等领域展现出了惊人的能力。然而，随着模型规模的增大，它们对计算资源的消耗、环境适应性、模型稳定性、安全性和可解释性等方面也提出了新的挑战。因此，对AI大模型进行智能评估变得至关重要，以确保它们在实际应用中的稳定性、可靠性和有效性。本文将详细介绍Ragas框架，一个专为AI大模型设计的智能评估工具。

2024-04-13 09:09:43 1211

原创 AI大模型探索之路-应用篇10：Langchain框架-架构核心洞察

随着人工智能技术的不断进步，AI大模型已成为推动技术革新的重要力量。Langchain框架作为一种先进的应用开发架构，专门针对大型语言模型（LLM）的集成与应用设计，致力于打造一个高效、灵活且功能丰富的AI应用生态。通过将理论与实践相结合，Langchain旨在为开发者提供一个全方位的解决方案平台，以应对复杂的业务需求和挑战。

2024-04-12 13:01:04 1360 4