clvsit-CSDN博客

原创 prompt 工程整理（未完、持续更新）

工作期间会将阅读的论文、一些个人的理解整理到个人的文档中，久而久之就积累了不少提示工程（Prompt Engineering）关注提示词开发和优化，帮助用户将大语言模型（Large Language Model，LLM）用于各场景和研究领域。

2024-04-14 00:20:11 830

原创 FlashAttention V1 学习笔记

Flash Attention 是一种新型的注意力机制，旨在解决传统 Transformer 模型在处理长序列数据时面临的计算和内存效率问题。它通过一系列创新的技术优化，显著提高了注意力机制的计算速度和内存使用效率，同时保持了精确的结果，不依赖于近似计算。

2024-04-11 13:12:27 945

原创构建 fluentd 镜像与部署应用

本文将具体介绍如何在基础镜像 ubuntu:20.04 上搭建 fluentd 镜像，并且实现监控指定目录的日志文件。

2023-04-06 21:41:43 784 1

Hierachical Softmax 思想Hierachical Softmax 的基本思想：将词典中的每个词按照词频大小构建出一棵 Huffman 树，保证词频较大的词处于相对较浅的叶子节点，词频较低的词处于相对较深的叶子节点。这样就将原本的 |V| 分类问题转换为了 log |V| 次的二分类问题。|V| 分类问题：log |V| 分类问题：原本需要计算 |V| 次，现在只需要沿着 Huffman 树的路径进行计算，计算量变为 log |V|。需要注意的是根节点无编码（无词语）。

2021-10-24 22:02:32 377

原创基于 BK 树的中文拼写纠错候选召回

最近在研究中文拼写纠错，在查阅资料的时候看到了这篇文章《从编辑距离、BK树到文本纠错 - JadePeng - 博客园》，觉得 BK 树挺有意思的，决定深入研究一下，并在其基础上重新整理一遍，希望能够对各位读者大大们有所帮助。前置知识本节介绍实现基于 BK 树的中文拼写纠错候选召回所需要的前置知识，包括文本纠错的主流方案、编辑距离和 BK 树等相关概念。文本纠错目前业界主流的方案仍然是以 pipeline 的方式：“错误检测 -> 候选召回 -> 候选排序”的步骤依次进行。以平安寿险纠错

2021-03-22 22:44:01 966 2

原创 EM 算法理解

EM 算法是一种迭代算法，1977 年由 Dempster 等人总结提出，用于含有隐变量（hidden variable）的概率模型参数的极大似然估计，或极大后验概率估计。EM 算法的每次迭代由两步组成：E 步，求期望（expectation）；M 步，求极大（maximization）。所以这一算法称为期望极大算法（expectation maximization algorithm），简称 EM 算法。本篇博客通过具体的案例来介绍关于 EM 算法的理解。

2020-06-18 20:42:38 442

原创 Google Bert 框架简单蒸馏实践

预训练语言模型，然后对下游任务进行微调已成为自然语言处理的新范例。预训练语言模型（PLM），例如 BERT、XLNet、RoBERTa 在许多 NLP 任务中都取得了巨大的成功。但是，PLM 通常具有大量的参数，并且需要较长的推断时间，因此很难在移动设备上进行部署。此外，最近的研究也证明了 PLM 中存在冗余。因此，在保持性能的同时减少 PLM 的计算开销和模型存储至关重要且可行。本篇博客主要讲述论文《Distilling the Knowledge in a Neural Network》以及如何将论

2020-06-14 22:48:26 1413 14

原创基于词向量的相似度短语挖掘

本篇博客介绍了基于词向量的相似度短语挖掘方法，通过Word2Vec、ELMo 等词向量模型将词语映射到词向量空间，然后选择一批启动词，使用类似DBSCAN算法的方式不断从词向量空间中搜索相似度较高的新词，不断地迭代，直到找不到新的相似度较高的词语。

2020-06-09 14:41:00 2324

原创隐马尔可夫模型（上）基本概念

隐马尔可夫模型的介绍与基本概念整理，包括模型的基本概念，组成成分，以及各成分之间的计算过程，通过一个简单的例子带读者理解隐马尔可夫模型。

2020-06-02 22:05:22 494

原创 Google Bert 框架训练、验证、推断和导出简单说明

关于 Google Bert 框架的使用介绍，包括训练、验证、推断和导出。

2020-05-24 14:45:37 1862 7

原创 Python 数据读取方式以及时间比对

对Python中几种常见的数据读取方式进行简单的介绍，主要是对各数据读取方式的时间进行横向比对，并给出在各场景下推荐使用哪一种数据读取方式。

2020-05-16 22:32:12 1435

原创 DFA 算法

DFA算法的简单介绍以及DFA算法在关键词匹配中的应用，如何简单地使用 Python 3.X 去实现 DFA 算法，来帮助我们从文本中抽取关键词，以及对敏感词进行识别。

2020-05-03 22:43:02 54340 6

原创 ES 查询不稳定现象及解决方案

在 ES 查询过程中，有时会发现：对于相同的查询语句，ES 返回不同的查询内容，但我们需要的是稳定的返回结果，此时该如何解决这个问题呢？

2020-04-16 23:10:31 4219

原创 SCP远程文件上传与下载

【语法】：scp [-346BCpqrv] [-c cipher] [-F ssh_config] [-i identity_file] [-l limit] [-o ssh_option] [-P port] [-S program] source ... target注意：第一次连接时会提示认证不能通过，在询问是否继续时，只需要输入 yes 即可。此时，在 C:\Users\...

2020-04-13 11:13:53 909

原创《计算机网络（第7版）》笔记：物理层

本章首先讨论物理层的基本概念，然后介绍有关数据通信的重要概念，以及各种传输媒体的主要特点，但传输媒体本身并不属于物理层的范围。在讨论几种常用的信道复用技术后，对数字传输系统进行简单介绍。最后讨论几种常见的宽带接入技术。【本章重要内容】：物理层的任务。几种常见的信道复用技术。几种常用的宽带接入技术，主要是 ADSL 和 FTTx。物理层的基本概念物理层考虑的是怎样才能在连接各种...

2020-04-07 22:48:22 573

原创《计算机网络（第7版）》笔记：计算机网络基础

计算机网络基础本章是全书的概要。先介绍计算机网络在信息时代的作用，接着对因特网进行了概括，包括因特网发展的三个阶段，以及今后的发展趋势。然后，讨论了因特网的组成，指出了因特网的边缘部分和核心部分的重要区别。在简单介绍了计算机网络在我国的发展以及计算机网络的类别后，又讨论了计算机网络的性能指标。最后，论述了整个课程都要用到的重要概念——计算机网络的体系结构。【重要的内容】:因特网的边缘部...

2020-04-05 22:47:22 1906

原创新词发现

新词发现也可称为未登录词识别，严格来讲，新词是指随时代发展而新出现或旧词新用的词语。同时，我认为特定领域的专有名词也可归属于新词的范畴。何出此言呢？通常我们会很容易找到通用领域的词表，但要找到某个具体领域的专有名词则非常困难，因此特定领域的专有名词相对于通用领域的词语即为新词。换言之，“新”并非只是时间上的概念，同样可以迁移到领域或空间上。因此，新词发现不仅可以挖掘随时间变化而产生的新词，也可以挖...

2020-01-05 22:39:07 7621 2

原创关键词抽取算法 TF-IDF

TF-IDF（term frequency-inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。顾名思义，TF-IDF 算法由两部分组成：TF 和 IDF。接下来，我...

2020-01-05 14:10:09 1157

原创决策树可视化

决策树相比其他算法的一个重要特性就是——可解释性，构建决策树的过程就相当于形成 if-then 规则集。如果我们能够将生成的决策树可视化，那么我们就可以对数据集与预测值之间的关系有清晰的认识。我们可以使用 graphviz 包来帮助我们可视化决策树模型，安装地址传送门。然后，选择适合操作系统的版本下载。下载完成后可以将 graphviz bin 目录路径添加到系统环境变量中，这样方便后续的操作...

2019-06-30 22:01:44 5020

原创推荐系统-node2vec 技术在设计网络推荐中的应用

美国著名的第三方调查机构尼尔森调查了影响用户相信某个推荐的因素，调查结果显示，9 成的用户相信朋友对他们的推荐，7 成的用户相信网上其他用户对广告商品的评论。从该调查可以看到，好友的推荐对于增加用户对推荐结果的信任度非常重要。因此，在社交网络的背景下，推荐系统不单单需要关注用户与物品之间的关系，还要关注用户之间的关系。在社交网站方面，国外以 Fackbook 和 Twitter 为代表，国内社...

2019-06-07 19:26:39 3385 2

原创推荐系统-基于用户的推荐在社交网络中的应用

美国著名的第三方调查机构尼尔森调查了影响用户相信某个推荐的因素，调查结果显示，9 成的用户相信朋友对他们的推荐，7 成的用户相信网上其他用户对广告商品的评论。从该调查可以看到，好友的推荐对于增加用户对推荐结果的信任度非常重要。因此，在社交网络的背景下，推荐系统不单单需要关注用户与物品之间的关系，还要关注用户之间的关系。在社交网站方面，国外以 Fackbook 和 Twitter 为代表，国内社...

2019-06-07 19:21:07 4623

原创决策树-CART（下）

承接上文模型选择-CART（上），我们继续来讲 CART 算法的剪枝操作。树剪枝一棵树如果节点过多，则表明该模型可能对数据进行了“过拟合”。我们可通过降低决策树的复杂度来避免过拟合，最有效的手段是进行剪枝处理（pruning）。先前在函数 choose_best_split() 中的提前终止条件，实际上在进行一种所谓的预剪枝（prepruning）操作。另一种形式的剪枝需要使用测试集和训练...

2019-06-05 21:42:53 694 2

原创决策树-CART（上）

CART（Classification And Regression Trees，分类回归树）算法是一种树构建算法，既可以用于分类任务，又可以用于回归。相比于 ID3 和 C4.5 只能用于离散型数据且只能用于分类任务，CART 算法的适用面要广得多，既可用于离散型数据，又可以处理连续型数据，并且分类和回归任务都能处理。CART 算法生成的决策树模型是二叉树，而 ID3 以及 C4.5 算法生成...

2019-06-05 21:40:46 6573 9

原创模型选择-朴素贝叶斯（下）

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入 x，利用贝叶斯定理求出后验概率最大的输出 y。朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。实际上学习到生成数据的机制，所以属于生成模型。极大似然估计在朴素贝叶斯法中，学习意味着估计 P(...

2019-06-04 20:45:25 622 2

原创模型选择-朴素贝叶斯（上）

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入 x，利用贝叶斯定理求出后验概率最大的输出 y。朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。实际上学习到生成数据的机制，所以属于生成模型。概率论基本知识联合概率：设 A，B 是两个随机事...

2019-06-04 19:56:39 661

原创决策树-C4.5

C4.5 算法由 Quinlan 于 1993 年提出，核心部分与 ID3 算法相似，只是在 ID3 算法的基础上进行了改造——在特征选择过程以信息增益比作为选择准则。【具体方法】：从根结点（root node）出发，对结点计算所有可能特征的信息增益比，选择信息增益比最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很...

2019-06-04 12:31:33 400

原创基于 Wi-Fi 的室内定位系统

目前，随着国内外相关从业人员的研究，研究者们提出了众多室内定位技术的理论与方法。在此仅讨论基于 Wi-Fi 的室内定位技术。WI-FI室内定位近年来Wi-Fi技术飞速发展，城市中的公共场所如大型超市商场、学校、企业等都已经广泛部署Wi-Fi。Wi-Fi室内定位技术已经出现了很多具有代表性的研究成果，如RADAR系统、Nibble系统、Weyes系统等室内定位系统。2012年，Google把Wi...

2019-06-04 10:30:30 7906 9

原创模型选择-决策树

决策树（decision tree）是一种基本的分类与回归方法。在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是 if-then 规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。【决策树组成】：根决策点：对应一个特征判断。决策节点：对应一个特征判断。叶子节点：对应决策结果。根决策点和决策节点又可统一用内部节点来表示。【分类过程】：从根节点开始，对实例的...

2019-06-03 22:25:52 6356 2

原创决策树-ID3

ID3 算法由 Quinlan 在 1986 年提出，核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。关于决策树的内容可参考。【具体方法】：从根结点（root node）出发，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为...

2019-06-03 21:54:52 401

原创模型优化-Adam

Adam（Adaptive Moment Estimation）优化算法实质上是将 Momentum 和 RMSprop 进行结合。Momentum 具有保持惯性的优点，RMSprop 实际上根据参数来调整学习率的衰减，体现环境感知能力。Adam 结合 Momentum 和 RMSprop，因此同时拥有惯性保持和环境感知这两个优点，而这两个优点也是缓解山谷震荡和鞍部停滞的关键动力。简单地介绍了...

2019-06-03 17:10:33 1884

原创模型优化-RMSprop

RMSprop 全称 root mean square prop 算法，和动量方法一样都可以加快梯度下降速度。关于动量方法的内容可以参考这篇博文模型优化-动量方法。动量方法借助前一时刻的动量，从而能够有效地缓解山谷震荡以及鞍部停滞问题。而 RMSprop 对比动量方法的思想有所不同，以 y = wx + b 为例，因为只有两个参数，因此可以通过可视化的方式进行说明。假设纵轴代表参数 b，横轴...

2019-06-02 22:54:41 16322 11

原创模型优化-AdaGrad

在先前介绍的梯度下降算法以及动量方法都有一个共同点，即对于每一个参数都用相同的学习率（步长）进行更新。但是在实际应用中，各参数的重要性肯定是不同的，所以对于不同的参数要进行动态调整，采取不同的学习率，让目标函数能够更快地收敛。本篇博客主要借鉴深度学习优化方法-AdaGrad 以及《百面机器学习》，若构成侵权则立即删除。【做法】：将每一个参数的每一次迭代的梯度取平方，然后累加并开方得到 r，最...

2019-06-02 20:53:25 5932 1

原创模型优化-动量方法

动量梯度下降（Gradient Descent With Momentum），简称为动量方法（Momentum），运行速度几乎总是快于标准的梯度下降算法，并且能够解决随机梯度下降所遇到的山谷震荡以及鞍部停滞问题，这部分内容请阅读上一篇博客梯度下降算法。根据梯度下降算法的参数更新公式：w=w−η∂L(w)∂ww = w - \eta\frac{\partial L(w)}{\partial w...

2019-06-02 18:05:11 2261 2

原创模型优化

优化是应用数学的一个分支，也是机器学习的核心组成部分。实际上，机器学习算法 = 模型表征 + 模型评估 + 模型优化。其中，模型优化所做的事情就是在模型表征空间（假设空间）中找到模型评估指标最好的模型。需要注意的是不同的优化算法对应的模型表征和评估指标不尽相同。先前，我很纠结是把损失函数放在模型评估中，还是放在模型优化这一篇博客中。准确地说，损失函数是用来作为模型评估的标准，不同的模型有不同的损...

2019-05-31 21:43:03 3460 1

原创模型优化-梯度下降算法

梯度下降（Gradient Descent）算法是机器学习中使用非常广泛的优化算法。当前流行的机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。【思想】：要找到某函数的最小值，最好的方法是沿着该函数的梯度方向探寻，例如物理学上的加速度与速度的关系。当加速度为零时，此时速度可能是最大，也有可能是最小，这取决于函数曲线。【步骤】：随机取一个自变量的值 x0x_0x0；对应该自变量...

2019-05-31 21:39:11 3030

原创模型评估

只有选择与问题相匹配的评估方法，才能快速地发现模型选择或训练过程中出现的问题，迭代地对模型进行优化。针对分类、排序、回归、序列预测等不同类型的机器学习问题，评估指标的选择也有所不同。知道每种评估指标的精确定义、有针对性地选择合适的评估指标、根据评估指标的反馈进行模型调整，这些都是机器学习在模型评估阶段的关键问题。首先，我们先来了解一下关于模型评估的基础概念。【误差(error)】：学习器的预测...

2019-05-30 22:24:53 6195 2

原创模型评估-性能度量(回归问题)

对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量（performance measure）。性能度量反映了任务需求，在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果，这意味着模型的“好坏”是相对的，什么样的模型是好的，不仅取决于算法和数据，还决定于任务需求。在预测任务中，给定数据集 D=(x1,y1),(x2,y2...

2019-05-30 22:05:18 4053

原创模型评估-性能度量(分类问题)

对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量（performance measure）。性能度量反映了任务需求，在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果，这意味着模型的“好坏”是相对的，什么样的模型是好的，不仅取决于算法和数据，还决定于任务需求。在预测任务中，给定数据集 D=(x1,y1),(x2,y2...

2019-05-30 12:28:36 5914

原创模型评估-评估方法

通常通过实验测试来对学习器的泛化误差进行评估并进而做出选择。为此，需要使用一个“测试集”（testing set）来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”（testing error）作为泛化误差的近似。【重要假设】：测试样本也是从样本真实分布中独立同分布采样而得。举个简单的例子，假设你要检验新研发的药对人的作用，你肯定是选择小白鼠，而不是红鲤鱼。因为红鲤鱼是鱼类，而小白鼠与...

2019-05-29 21:41:26 4760

原创特征选择-过滤式选择

过滤式方法先按照某种规则对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关，这相当于先用特征选择过程对初始特征进行“过滤”，再用过滤后的特征来训练模型。【某种规则】：按照发散性或相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，从而选择满足条件的特征。特征的发散性：如果一个特征不发散，例如方差接近于 0，也就是说样本在该特征上基本没有差异，那么这个特征对于样本的区分并...

2019-05-28 23:09:11 15785 5

空空如也

空空如也