祖国翔-CSDN博客

原创为什么我们需要机器学习

人类文明的进步是一步步把人从他们需要做的重复性的工作中解放出来，去做他们更想做的事情。这就需要各行各业实现自动化，智能化（可以认为时自动化的高级阶段）。不知道你有没有人和你说过，当你在电脑上做同样的事情超过两次时，你就需要写一个程序去做它。这就是用程序的方法实现自动化。但问题出现了，有些任务很难用程序实现。比如要在任意视角任意光线下识别一个二维图片中的三维物体，这个任务要么无法用程序实...

2020-03-07 11:29:24 677

原创参数高效微调方法详解（PEFT，Parameter Efficient Fine-Tuning）

你可以使用几种方法进行参数高效微调，每种方法在参数效率、内存效率、训练速度、模型质量和推断成本方面都有权衡。本文主要讲解了参数高效微调方法的三类中的两类的两种方法，LoRA 和prompt tuning。

2024-04-15 18:23:28 960

原创影响大型语言模型生成文本时行为的配置参数

一些参数可以在推理过程中影响模型的输出，这些参数包括最大新 token 数、随机抽样、top k 抽样、top p 抽样和温度，本文我们详细讲解这些参数。

2024-04-15 17:32:42 768

原创 Transformer 架构变种总结

虽然Transformer 论文Attention Is All You Need 为了翻译任务使用了transformer的编码器和解码器部分，但你可以将这些组件拆分开来进行架构的变化。仅有编码器的模型也可以作为序列到序列模型，编码器-解码器模型，仅有解码器的模型（如今是最常用的之一）。

2024-03-27 12:51:44 222

原创 Transformer 预测过程详解

我们看到很多文章讲了transformer架构的高层概述，包括其中一些主要组件。但大部分文章没有讲整个预测过程是如何一步步进行的。让我们通过一个简单的例子来详细了解一下。在这个例子中，你将会看到一个翻译任务或者序列到序列任务，这恰好是transformer架构设计者最初的目标。

2024-03-27 12:46:42 328

原创 chatGPT 背后的技术之 Transformer 详解

transformer 是为了翻译任务而研发的，就是适用于序列到序列的模型，连作者都没想到，transformer后来会如此通用

2024-03-24 23:13:48 723

原创 chatGPT 背后的技术之 GPT1

GPT1是一种通过生成式预训练和判别式微调实现强大自然语言理解的框架。通过在包含大段连续文本的多样语料库上进行预训练，模型获得了丰富的世界知识和处理长距离依赖的能力，然后成功地将这些能力转移到解决问题回答、语义相似度评估、蕴涵判定和文本分类等判别任务上，提高了所研究的12个数据集中的9个的最新技术水平。

2024-03-15 23:40:15 925

原创 chatGPT 背后的技术之 GPT2

这篇文章我们讲GPT3的基础，也是上一代GPT, GPT2。GPT-2, 是一个有15亿参数的 Transformer 模型，但尽管模型有15亿参数，但还是underfits 他们使用的数据集WebText，也就是说当时他们就知道，模型更大，会有更好的效果（我们知道，后来GPT-3模型有1750亿参数，大了两个数量级）

2024-03-11 22:46:27 837

chatGPT是由openAI 公司发布的大型语言对话机器学习模型，因为其强大的功能，可以帮助编程，可以咨询问题，可以检查语法错误等等，而在最近半年火爆全网。GPT3 可以处理多种文本相关的任务，如填词，回答问题，阅读理解等，不再需要对特性任务进行分别训练，可以任务是在通用人工智能的道路上迈出了举足轻重的一步。GPT3 的网络结构和 GPT2 是一样的（GPT2 会在后面的文章中详细介绍），但GPT3 的模型尺寸比GPT2大两个数量级。训练的数据集进行了一些处理，增加了一些可信度高的文本的学习次数。

2023-06-18 23:12:01 415

原创怎样学习 Go 语言

Go 的官方网站有很好的学习教程：Documentation - The Go Programming Language本文逐渐更新，欢迎收藏！祖国翔，于上海https://www.linkedin.com/in/guoxiang-zu/GuoxiangZu (Guoxiang Zu) · GitHub

2022-01-28 09:59:59 350

原创计算机视觉，卷积神经网络，经典及变革案例分析

本文主要介绍一些重要的的卷积神经网络模型。经典网络：LeNet-5[LeCun et al., 1998. Gradient-based learning applied to document recognition]

2021-06-13 22:06:31 302 3

原创分布式之怎样学习 k8s (kubernetes)

今天看到一篇文章https://blog.csdn.net/juwikuang/article/details/113729712?spm=1000.2115.3001.4373，里面讨论了各个城市，各个分支领域的程序员工资，我注意到分布式工程师的工资最近1年有了大幅增长（从2020年2月的月工资 18804 到 2021年2月的月工资 24438）那分布式的小白们，应该怎样学习分布式的知识呢？现在，k8s 基本上已经成为分布式软件的标准运行平台。k8s的文档，网上学习环境，也比较成熟。个人..

2021-02-14 10:17:24 257 2

原创什么是强化学习 Reinforcement Learning

机器学习可以分为监督学习，无监督学习，和强化学习。所谓的分类，既是方法的不通，也是所解决的问题的不通。那强化学习是为了解决什么问题呢？强化学习是为了解决在不确定下做出序列化的决策的问题。在强化学习的模型中，会有一个代理 Agent，这是做决策的主体。Agent 面对是环境 Environmrnt，Agent 首先会从 Environment 发现自己面对的环境的当前状态 state 是什么，然后会根据当前状态做出决策 action，接下来 Environmrnt 会根据 Agent 的 a.

2020-11-22 22:23:02 289

原创机器学习的分类

机器学习可以分为三类，监督学习，无监督学习和强化学习。监督学习的训练样本中包含标签，任务是预测样本的标签。监督学习可以分为分类和回归两大类。训练样本中包含的标签为类别的，为分类任务；训练样本中包含的标签为数值的，为回归任务。无监督学习的训练样本中不包含标签，目的是通过对训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。常见的无监督学习有聚类，降维与度量学习，特征选择与稀...

2020-03-15 13:26:15 1052

原创什么是生成式对抗神经网络GAN

GAN,generative adversarial network,生成式对抗神经网络，是生成模型的一种。生成模型主要分两种，一种由输入数据，得到概率密度分布，另外一种，由输入数据，得到与输入数据相同发布的...

2020-03-04 22:09:31 1186

原创深度学习中的优化

深度学习的优化，基本算法有：1. 随机梯度下降2. 动量其实就是综合历史累计的梯度和当前梯度3. Nesterov 动量梯度值不是来自于当前梯度，而是来自于由历史累计梯度得到的预测位置的梯度由于学习率是难以设置的超参，于是有如下自适应学习率算法：1. AdaGrad当前学习率由初始学习率除以历史梯度的累计平方和开根号得到2. RMSProp和...

2020-02-26 23:09:47 156

原创深度学习怎样避免过拟合

过拟合的原因是相对于训练样本的数量，模型的容量过大，导致无法降低泛化误差。解决的方法就有增加训练样本的数量，限制模型的容量，和使用集成方法。增加训练样本的数量的方法有：1. 数据集增强限制模型的容量的方法有：1. 参数范数惩罚（有L2正则，和L1正则）2. 提前终止(early stopping)，当验证集的误差（或者说损失）开始由减小变为增大（U型）时，停止训练3. 参...

2020-02-25 22:01:26 266

原创 c++ ： resize 之后的vector，又push_back 新元素，元素取地址问题

这篇博客中有一个基本的介绍，但面对的问题是一开始vector是空的，于是可以直接先reserve()一个大小。https://blog.csdn.net/wuhuaiyu/article/details/45953643但如果一开始先将vector resize()了大小，用for语句赋了元素的值（这些元素的值都被记录下来，之后要用）；之后又不断push_back值，每次push_back...

2018-06-28 18:24:02 2320

祖国翔的博客