云上笛暮-CSDN博客

原创基于lora技术对Gemma（2B）大模型的微调实践

本文主要基于Lora技术，在Google colab上用A100对Gemma 2B大模型进行了指令微调，第一次指令微调是采用databricks-dolly-15k 作为数据集，取得了不错的微调效果，能准确用英文回答问题，但是databricks-dolly-15k 毕竟是英文数据集，微调后的模型对中文的理解并不好，为使模型对中文有更好的理解，笔者采用COIG-CQIA数据集进行了指令微调，微调后模型对中文回答的效果非常明显。

2024-04-05 17:58:45 937

原创读书2024（20）

深林人不知，明月来相照。

2024-02-15 16:04:20 351

原创在大模型实践旅途中摸了下上帝的脚指头

所以此阶段我开展更大范围的落地推进活动，处于对已测试客户效果的真切感受和对大模型的进一步理解，我的自信开始展示在每一次的客户交流和市场演讲当中，这阶段我已经开始很直接的告诉客户在哪些环节中，可以用新技术解决老问题和带来新价值，所以，与客户探讨可落地的产品解决方案成为第一优先级。----------------------------------------------全文完-----------------------------------------------------------

2024-02-08 23:13:03 870

原创文字练习-莫道人生无再少

小时候屋前院子有两棵桃树，一棵在左边，一棵在中间偏右，春天的时候，满树粉红色的桃花热情盛开，晴天放学的时候，远远看到就是一个纯粹的桃花世界。除了桃花盛开的春天，还有慵懒的夏天、凋零上霜的秋天和寂静皑皑的冬天，每个季节里，都有很多现在看起来纯粹、简单却温馨无比的故事，我只能在偶尔想起这些时，才能找到片刻的宁静与欣慰。一天一天，早出晚归，工作成了生活的全部。历史的车轮滚滚向前，二十年前的世界和现在的世界差别太大，作为人，有幸的是可以用感觉来丈量这种变迁，不幸的是，这种变迁并不一定如你所愿。

2024-01-07 00:19:32 368

翻译 RNN 和 LSTM 简介

所以所有的输出都是独立的。RNN 可以采用一个或多个输入向量并产生一个或多个输出向量，并且输出不仅受到像常规神经网络一样应用于输入的权重的影响，而且还受到表示基于先验的上下文的“隐藏”状态向量的影响输入/输出。常规 RNN 的工作方式是，隐藏状态激活受到最接近它们的其他局部激活的影响，这对应于“短期记忆”，而网络权重则受到整个长期计算的影响。RNN 被称为循环网络，因为它们对序列中的每个元素执行相同的任务，输出取决于之前的计算，并且您已经知道它们有一个“记忆”，可以捕获有关到目前为止已计算内容的信息。

2023-12-30 18:30:00 45

翻译卷积神经网络（CNN）简介

来检测整个图像中存在的特征，例如边缘。由于我们通常使用小内核，因此对于任何给定的卷积，我们可能只会丢失一些像素，但是当我们应用许多连续的卷积层时，这可能会增加。但是，当相同的滤波器/内核传递到具有相当不同的边缘集的图像部分时，卷积的输出很小，这意味着不存在任何加号和元素级乘积，并且总和将导致零或非常小的值。由于图像的该部分包含与滤波器正在寻找的相同的加号，因此卷积运算的结果是一个很大的数字。执行图像增强，而不是用大量图像来训练模型，我们可以用更少的图像来训练我们的模型，并用不同的角度训练模型并修改图像。

2023-12-29 22:45:00 33

翻译深度学习中的 Transformer 神经网络：解释

另一种方法是保留最上面的两个单词（例如“I”和“a”），然后在下一步中运行模型两次：一次假设第一个输出位置是单词“I”，另一次假设第一个输出位置是单词“a”，并且考虑到位置#1和#2，保留产生较少错误的版本。由于我们没有可以记住序列如何输入模型的循环网络，因此我们需要以某种方式为序列中的每个单词/部分提供一个相对位置，因为序列取决于其元素的顺序。当我们在编码器#5（堆栈中的顶部编码器）中对单词“it”进行编码时，注意力机制的一部分集中在“The Animal”上，并将其表示的一部分烘焙到“it”的编码中。

2023-12-28 23:45:00 169

翻译人工神经网络（ANN）简介

ReLU本质上是非线性的，ReLu的组合也是非线性的。需要注意的一件事是，由于 SGD 通常比典型的梯度下降噪声更大，因此由于其下降的随机性，通常需要更多的迭代次数才能达到最小值。在这种情况下，房地产市场上的普遍现象是，距离城市越远，越大的房子就越便宜。如果没有激活函数，我们的模型就无法学习和建模复杂的数据，例如图像、视频、音频、语音等。我们的目标是最小化成本函数。这个函数的问题是创建一个二元分类器（1或0），但是如果你想要连接多个这样的神经元以引入更多的类，Class1、Class2、Class3等。

2023-12-28 23:00:00 39

转载深度学习和神经网络之间有什么区别？

深度学习系统简单神经网络架构由多个针对卷积或循环排列的隐藏层组成。神经网络由输入层、隐藏层和输出层组成。这些神经网络在结构上模仿人类大脑。复杂性根据其功能，深度学习网络非常复杂，其结构包括长短期记忆（LSTM）和自动编码器。神经网络复杂性较低，因为它们只包含几层。性能深度学习算法可以解决大量数据中的复杂问题。神经网络在解决简单问题时表现良好。培训训练深度学习算法需要花费大量的资金和资源。神经网络的简单性意味着训练成本较低。

2023-12-11 22:00:00 175

原创小模型学习（1）-人脸识别

思考：上面人脸识别的三个步骤，可以简单理解为先通过少量特征点找到人脸，然后通过算法提取每个人脸的特征，并用一组特征向量表示，且每个特征向量后面增加一个该人的姓名。比如【A1,A2,A3,A4,A5,小明】，如果有m个测试集，就会有一个行的矩阵，就类似构建了数据库，接下来就是使用该数据库。如何使用？把人脸输入，通过特征提取算法提取该人脸的特征向量，然后通过计算与之前构建数据库（就是那个m行的大矩阵）的欧式距离或者余弦相似度，从而找到输入的人脸是谁。

2023-12-10 22:50:39 257

原创 AI Agent 结构与分类

在人工智能中，智能代理AI Agent是以智能方式行事的代理；它感知环境，自主采取行动以实现目标，并可以通过学习或获取知识来提高其性能。智能代理可以是简单的，也可以是复杂的：恒温器或其他控制系统被认为是智能代理的一个例子，人类是一个复杂的代理。为了理解智能代理的结构，我们应该熟悉架构和代理程序。架构是代理执行的机器。它是一种带有传感器和执行器的设备，例如机器人汽车、相机和 PC。代理程序是代理功能的实现。

2023-12-04 23:35:48 1450 1

原创早餐与风景

在外面等待的时光，车辆如期而至，是一位女司机，从车内的装饰看，应该是闲时出来接接单，她带着一副墨镜，我打开车门那一刹，听到一声豪爽的“您好”，我很懂规矩的报了手机尾号，然后开始出发。接下里就是按照正常的议程走，接待了不少陌生的客户，跟他们讲解、互动和传递，总之是一个有输入有输出的过程，就这样基本站了一整天，还好中午抽大家午餐时间，同事带我吃了些有特色的美食，中午这顿绝对比有天晚上和一个同事下班后在路边找吃的，走了一大段路没找到，最后拿手机导航却进了家上海混沌馆，更有味。来吧，我用流水账描述下这一天。

2023-09-22 22:51:30 267

翻译数据隐私与数据安全与数据保护：深入探讨

数据隐私是收集、共享和存储尽可能少的数据的概念。另一方面，数据保护是指复制数据，以便在丢失或损坏时快速恢复数据。

2023-09-10 20:11:17 109

原创安全模型中的4个P

在安全模型中，经常会碰到PDR,PPDR，IPDRR，CARTA-PPDR等模型，其中的P，是predicet？是prevent？还是protect？还是policy呢？在CARTA的架构PPDR架构中，可以看到没有pretect,其中的2个P都代表predict和prevent，笔者认为这代表了安全模型在强调防御的左移，应为protect其实相对prevent已经靠后了，结合CARTA的自适应和可视化，可以不断降低组织的MTTD和MTTR。

2023-09-08 18:25:14 1150

翻译大模型遇上恶意软件：开启自主威胁时代

该策略是根据特定的系统环境和所选黑客组织的标准做法定制的，例如，它可能会决定在检测到 Outlook 应用程序时包含密码窃取任务，而不是在服务器上安装后门帐户。正如之前预期的那样，我们的概念验证 (PoC) 自主恶意软件是一个支持 AI 的 Powershell 脚本，旨在说明人工智能在自动化和决策方面的潜力，每个执行阶段都强调人工智能的适应性和智能性。这一阶段的一个有趣的方面是人工智能的战略决策，它密切模仿知名黑客组织使用的策略。组的选择不是随机的，而是由系统的特定上下文和条件决定。

2023-08-24 22:00:00 283

翻译大型语言模型的演变——BERT、GPT3、T5 和 PaLM

Transformers 的主要构建块是自注意力，这是注意力的一种变体，它将序列中的每个元素替换为序列其余部分的加权平均值。凭借大规模的参数，它表现出了出色的小样本性能，在 29 个最广泛评估的英语 NLP 任务中的 28 个上取得了最先进的结果，包括代码生成、问答、多语言生成、NMT、推理ETC。MUM 是多模式的，因此它可以理解文本和图像中的信息。在本文中，我们讨论了基于 Transformer 的自监督语言模型系统，并探讨了几种流行的模型，这些模型要么在行业中大量使用，要么优于当前的技术水平。

2023-07-04 21:15:00 1049

翻译监督学习、无监督学习和强化学习的直观解释及其差异

当智能体采取行动时，它需要通过尝试和错误来执行各种行动，以维持探索和利用之间的平衡，以支持在未来产生最大奖励的行动。然后，使用监督学习模型对属于模型训练数据类别的先前未见过的未标记数据生成预测。监督学习是指通过练习充当标记数据的示例来了解 Python 的功能，然后使用获得的知识为未见过的用例编写 Python 程序。孩子发现无需外部监督即可对玩具进行聚类的新方法，类似于无监督学习。机器学习 (ML) 是人工智能 (AI) 的一个子集，定义为计算机通过使用算法来模仿人类决策和预测的智能行为从数据中学习的。

2023-07-03 20:00:00 308

原创 GPT模型训练实践（3）-参数训练和代码实践

GPT模型参数的训练过程宏观上有两个大环节，先从上往下进行推理，再从下往上进行训练，具体过程为：1、模型初始化参数随机取得；2、计算模型输出与真实数据的差距（损失值和梯度）3、根据损失值，反向逐层调整权重参数；如下图：参数的生命周期分为三个阶段：一、参数的产生-训练。初始通过随机产生，之后多次迭代训练，最终逼近准确值。这个过程在稍后的代码实践会有所体现。二、参数的使用--推理。这个过程主要就是大量的矩阵计算。三、参数微调。

2023-07-01 18:13:24 2895

原创 GPT模型训练实践(2)-Transformer模型工作机制

与超参数对应的还有一个词叫参数，参数是在训练过程中得到的，出厂前的训练叫预训练，会得到基础参数（最开始的参数叫原始参数，随机生成的），但在实际的使用过程中，需要经过Fine-tuning,也就是微调，类似与把一套毛坯房装修为精装房的过程，以后在使用该模型的时候，其实就等于入住了。在自注意力子层中，有自注意头，且因为没有输出，其输入主要来自自己，也就是左边的信息，所有叫做自回归自注意力机制。数量，词向量，位置向量，解码器层数，自注意力头数、注意力维度数、学习率等。

2023-07-01 18:07:11 1008

原创 GPT模型训练实践（1）-基础概念

GPT 模型是 Generative Pretrained Transformers 的缩写，是一种先进的深度学习模型，旨在生成类人文本。生成模型是用于生成新数据的统计模型。这些模型可以学习数据集中变量之间的关系，以生成与原始数据集中相似的新数据点。这些模型已经使用大型数据集进行了预训练，可以在难以训练新模型时使用。尽管预训练模型可能并不完美，但它可以节省时间并提高性能。Transformer 模型是 2017 年创建的人工神经网络，是最著名的能够处理文本等序列数据的深度学习模型。

2023-07-01 12:36:07 1773 1

原创 RSA 2023-XDR ：Threat Response Needs New Thinking. Don‘t Ignore This Key Resource.

在最近的 RSA 2023 演讲中，来自思科的 Jeetu Patel 强调了扩展检测和响应 (XDR) 作为统一跨域安全平台的重要组成部分的重要性。 Patel 强调，跨域遥测可以实时跟踪跨企业域的漏洞利用，需要一个端到端的集成平台来确保有效防御威胁。

2023-05-17 21:16:51 111

翻译用于网络安全的生成式 AI：利用 AI 增强威胁检测和响应

它能够检测数据中的细微模式和异常、预测未来威胁以及自动化网络安全的各个方面，可以为各种规模的组织带来显着的好处。通过利用其生成新数据和见解的能力，生成式 AI 已成为网络安全专业人员的强大工具，帮助他们在不断变化的威胁环境中保持领先地位。在这种情况下，生成人工智能在网络安全中的大量应用正在改变组织处理安全问题的方式，从检测新的和未知的威胁到简化事件响应和减少误报。目标是对新的、看不见的数据做出准确的预测。在网络安全的背景下，生成式人工智能可用于创建传统网络安全工具可能无法检测到的新的、更复杂的恶意软件。

2023-05-16 22:00:00 1220

转载攻击信标（IOA）与攻陷信标（IOC）

了解 IoA 和 IoC我们先来简单看看这两个指标的定义。

2023-04-28 13:51:53 2996

原创 SIEM、SOAR和XDR的差别

一、什么是 SIEM？一、什么是 SIEM？SIEM系统。虽然首字母缩略词 SIEM 是 Gartner 在 2005 年首次创造的，但 SIEM 的功能基础已经存在了更长时间。早在 1990 年代，有远见的组织就认识到他们需要，以促进分析和满足合规性要求。SIEM 工具聚合日志数据，为 SecOps 团队提供统一的遥测资源。他们还保留用于取证和合规目的的数据，跨系统查询数据以进行威胁检测和调查，并提供仪表板和报告以帮助 SecOps 员工按需监控环境并遵守审计要求。二、什么是 SOAR？

2023-03-31 20:00:00 615

原创文字练习-读书的目的

总而言之，让思考读书的目的成为潜意识，在现实工作中灵活匹配场景并总结场景，在场景中应用读书所得并沉淀知识生成智慧。

2023-02-03 23:29:50 139

原创读书2023（20）

横看成岭侧成峰，远近高低各不同。

2023-01-17 15:13:49 206

翻译 XDR技术加入API=ADR

本文为Neosec 创始人做所，Neosec同时也是XDR技术的创始人之一，ADR正在升起，此文值得一读。

2022-11-08 18:48:41 231

原创 API接口调用演示

本文以深圳市政府数据开放平台为素材对象，演示如何调用其开放的API接口，主要目的在于以直观的视角，熟悉API接口的格式及调用方式。

2022-10-14 17:26:54 2946

原创文字练习-修炼

但是，化愤慨为平常，是需要迎接挑战的，主要是自我挑战，这个度非常难把握，容易出现躺平的现象，所以需要修炼，修炼意志、修炼心智、修炼品性。想起前几天看到的一篇文章，说为什么中国的年轻人很难在科研上取得重大成绩，原因是中国年轻人需要背负太多的生活压力，典型的就是买房，尤其是一线城市如深圳，有时候很难去想象通过打工去挣上几百万的金钱，然后全部投入到一套房产上面，在这样的背景下，生活怎么可能有生活本该具备的状态，如坦然、自在、随性。年轻人都在失去的思考与观察的习惯，其实是整个国家的落后。

2022-10-06 22:42:04 167

转载数据库基本知识1--数据库基本结构与ODBC

数据库基本组成

2022-09-23 22:39:33 139

原创数据库基本操作指令

对于数据库侧的安全，需要关注一些不安全的操作行为，通常的做法是通过内置一些风险模型在系统中，以匹配的形式进行识别，进而执行阻断、审计或告警等操作。

2022-09-11 23:39:39 1214

原创基于风险评估标准内容演变理解安全运营工作本质

信息安全管理的本质是风险管理，而风险管理的本质是将风险调整至可接受的水平。如何将风险控制在组织可接受范围之内，不影响业务的健康发展，甚至推动业务发展，也是当前安全运营工作的核心目的。......

2022-08-14 14:39:36 785

转载广东省数字经济发展指引 1.0之建成数据安全保障体系

做好网络安全和数据安全防护体系顶层设计，落实相关法律法规和政策措施。运用可信身份认证、数据签名、接口鉴权、数据溯源等数据保护措施和区块链等新技术，强化对算力资源和数据资源的安全防护。建立并完善入侵检测与防御、防病毒、防拒绝服务攻击等网络安全防护技术手段。研究利用云计算、大数据等技术提高网络安全监测预警能力。...

2022-07-31 23:58:42 283

原创 GB/T 41479-2022信息安全技术网络数据处理安全要求导图概览

GB/T 41479-2022信息安全技术网络数据处理安全要求

2022-07-25 20:17:07 1188

转载正确甄别API、REST API、RESTful API和Web Service之间的异同

看到API你会想起什么？是接口、第三方调用、还是API文档？初看你可能会觉得这太熟悉了，这不是系统开发日常系列吗？但你仔细想一想，你会发现API的概念在你脑海里是如此的模糊。如何你通过搜索引擎检索API，你会看到类似这样的信息：API——Application Programming Interface(应用程序编程接口)，这太抽象了。接下来，我将结合在开发中总结的一些经验，以通俗的方式聊聊API、REST API、RESTful API以及Web Service这四者之间的联系与区别。1、API 与 RE

2022-06-29 23:27:52 389

TA关注的人

Department of Defense (DoD) Zero Trust Reference Architecture 翻译

清华大学126页PPT：2021元宇宙发展研究报告.pdf

全球工程前沿2020.pdf

SOAR 买方指南-Splunk.pdf

SIEM 买方指南-Splunk.pdf

2021年世界发展报告.pdf

FF-PIPE-Presentation.pdf

网络安全系列报告.zip

入侵和攻击分析.xmind

pthreadVC2.dll,libeay32.dll,ssleay32.dll

HBR_How-Smart-Connected-Products-Are-Transforming-Competition

But How Do It Know?

ZStack-CC2530-2.3.1-1.4.0 协议栈

OSI七层模式的会话层功能到底该如何理解？