自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(95)
  • 收藏
  • 关注

原创 标签平滑(Label Smoothing)

例如,一个经过平滑的标签可能看起来像这样(假设平滑参数为0.1):[0.01, 0.01, 0.9, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01]。在没有标签平滑的传统训练过程中,我们通常使用硬目标(hard targets),即每个训练样本的目标标签用一个one-hot编码向量表示,其中正确类别位置为1,其余为0。例如,在一个10类分类问题中,第三类的标签将表示为[0, 0, 1, 0, 0, 0, 0, 0, 0, 0]这样的向量。

2024-04-18 21:24:24 298

原创 pathlib标准库

是 Python 的一个标准库,用于面向对象的文件系统路径操作。它提供了表示文件系统路径的类,具有跨操作系统的语义。成为编写与文件系统交互的代码时的首选工具,因为它使得代码更加易读、易写,并且通常比传统的文件路径操作方法更加强大和灵活。类是 Python 3.4 及其之后版本的一部分。在Python早期版本中,路径操作通常是使用。模块中的一个核心类,用于创建表示文件系统路径的对象。提供了一个更现代且面向对象的API来替代它们。

2024-03-28 15:37:21 209

原创 点采样算法(Farthest Point Sampling, FPS)

远点采样算法(Farthest Point Sampling, FPS)是一种用于点云数据下采样的算法。它的目的是从一个大规模的点集中选择一个子集,使得子集中的点云能够尽可能代表原始点云的形状特征。然而,FPS的一个缺点是计算效率相对较低,因为需要计算所有未采样点到已采样点集的距离,并找出最远点。远点采样算法的优点在于能够保持点云的覆盖范围和形状特征,因为它优先选择那些在几何上较为孤立的点。FPS的基本思想是不断选择当前还未被选择的、距离已选点集最远的点,直到达到预设的点数或者覆盖整个数据集。

2024-03-28 11:30:53 431

原创 正则化和贝叶斯的关系

正则化和贝叶斯方法在机器学习和统计学中都是用来处理过拟合和提高模型泛化能力的技术,它们之间存在着密切的联系。要理解这两者的关系,我们首先需要回顾它们各自的基本概念。

2024-03-23 20:15:53 927

原创 示性函数(Indicator Function)

对于任意集合AAA和全集XXX的元素xxx,示性函数IAX→01IA​X→01IAx1ifx∈A0otherwiseI_A(x) =IA​x10​ifx∈Aotherwise​。

2024-03-23 19:58:40 961

原创 UniRepLKNet_ A Universal Perception Large-Kernel ConvNet

大核卷积神经网络(ConvNets)最近受到了广泛的研究关注,但有两个尚未解决的关键问题需要进一步的研究。1)现有的大核卷积网的架构在很大程度上遵循了传统的卷积网或transformer的设计原则,而针对大核卷积网的架构设计仍未得到充分解决。2)由于transformer主导了多种模式,convnet是否在视觉之外的领域也具有很强的普遍感知能力仍有待研究。在本文中,我们从两个方面进行了贡献。

2024-03-12 09:59:20 326

原创 LORA_ LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

作者提出了低秩自适应,或称LoRA,它冻结了预先训练的模型权值,并将可训练的秩分解矩阵注入变压器架构的每一层,大大减少了下游任务的可训练参数的数量。学习到的过度参数化模型实际上存在于一个较低的内在维度上。作者假设模型适应过程中权重的变化也具有较低的“内在秩”,这导致了作者提出的低秩适应(LoRA)方法。LoRA允许作者通过优化适应过程中密集层变化的秩分解矩阵来间接训练神经网络中的一些密集层,同时保持预先训练的权值冻结,如图1所示。

2024-03-11 22:24:44 1069

原创 FLatten Transformer_ Vision Transformer using Focused Linear Attention

当将transformer模型应用于视觉任务时,自注意的二次计算复杂度(n2n^2n2)一直是一个持续存在的挑战。另一方面,线性注意通过精心设计的映射函数来近似Softmax操作,提供了一个更有效的替代方法。然而,当前的线性注意方法要么遭受显著的性能下降,要么从映射函数中引入额外的计算开销。在本文中,作者提出了一种新的聚焦线性注意模块,以实现高效率和表达性。具体来说,首先从聚焦能力和特征多样性两个角度分析了导致线性注意性能下降的因素。

2024-03-11 21:36:22 881

原创 FairTune:优化参数高效微调以实现医学图像分析的公平性

人工智能在医疗健康应用中的应用正在迅速增长。然而,人工智能模型一再被证明对不同的人口统计学亚群体表现出不必要的偏见——AI模型在由性别、种族、年龄和社会经济地位等方面处于弱势群体中提供了明显更差的表现。该论文认为深度学习模型在训练集中已经在本质上是公平的,在训练阶段不同群体是公平的(表现出相同的性能),但是因为模型在不同群体的泛化能力不同,导致在测试集和现实中存在不公平(表现出不同的性能),如下图所示。

2024-03-05 21:50:19 795

原创 经验风险最小化(Empirical Risk Minimization, ERM)

经验风险最小化(Empirical Risk Minimization, ERM)是机器学习中的一个基本原则,它旨在通过最小化训练数据集上的损失来训练模型。这种方法基于这样一个假设:通过最小化模型在训练集上的误差(即经验风险),模型在未知数据上的表现(即泛化能力)也会得到提升。ERM框架下的目标是找到一个函数,使得这个函数在训练数据集上的平均损失最小。

2024-03-05 19:11:34 525

原创 容量控制(Capacity Control)

容量控制(Capacity Control)是机器学习和深度学习中一项重要的概念,它涉及到调整模型的能力,使其既能够从训练数据中学习规律,又能够良好地泛化到新的、未见过的数据上。模型的“容量”指的是其拟合各种函数的能力。一个容量过大的模型可能会过拟合(即,在训练数据上表现得很好,但在新数据上表现不佳),而容量过小的模型可能会欠拟合(即,即使在训练数据上也不能表现良好)。

2024-03-05 19:03:27 392

原创 Normalization归一化方法

【代码】Normalization归一化方法。

2024-03-05 10:56:45 871

原创 雅可比矩阵(Jacobian matrix)

在机器学习中,雅可比矩阵经常用于计算反向传播算法中的梯度,用于更新模型参数。在优化中,雅可比矩阵可以用于计算目标函数的梯度,帮助确定最优解。在计算机图形学中,雅可比矩阵用于计算变形、变换和形变等几何变换。雅可比矩阵(Jacobian matrix)是一个重要的数学工具,用于描述一个向量值函数的导数。雅可比矩阵将一个输入向量的变化率映射到输出向量的变化率,它的重要性在于它提供了多变量函数的全面导数信息。通过雅可比矩阵,我们可以获得有关多变量函数的全面导数信息,从而更好地理解和分析函数的行为和性质。

2024-03-05 10:12:17 1230

原创 Score matching

Score matching 是一种用于估计概率模型参数的技术,由 Aapo Hyvärinen 在 2005 年提出,主要用于那些概率密度函数难以归一化的情况。在许多概率模型中,确切计算模型的归一化常数是不可行的,因为它涉及到整个数据空间的积分或求和,这在高维数据中尤其困难。Score matching 为这类模型提供了一种有效的估计参数的方式。

2024-03-04 20:28:27 914

原创 信息熵 (Entropy)

对于离散概率分布,若有两个概率分布PPP和QQQ,其中 § 通常代表数据的真实分布,而QQQ代表模型预测的分布,那么交叉熵HPQH(P, Q)HPQHPQ−∑xPxlog⁡QxHPQ−∑x​PxlogQx))这里的求和是对所有可能事件xxx进行的,PxP(x)Px是样本点xxx在真实分布中的概率,QxQ(x)Qx是样本点xxx在预测分布中的概率。对于离散随机变量,如果我们有两个概率分布PPP和Q。

2024-03-04 11:45:22 1091

原创 多元正态分布(Multivariate Normal Distribution)

多元正态分布(Multivariate Normal Distribution),也称为多变量高斯分布,是单变量正态分布(高斯分布)在多维空间中的推广。通常通过样本的均值和样本协方差矩阵来估计。多元正态分布是许多多变量统计方法的基础,如多变量回归分析、主成分分析(PCA)等。上述特殊情况下的多元正态分布在理论探讨和实际应用中都有重要的地位,比如在金融模型、社会科学研究、工程问题等领域。这些性质使得多元正态分布在理论研究和实际应用中都非常重要,尤其是在统计推断、风险管理、机器学习和许多其他领域。

2024-03-03 15:54:59 1143

原创 Jensen‘s inequality(詹森不等式)

在凸函数的情况下,线性组合的函数值不大于函数值的线性组合。换句话说,如果你在凸函数的图像上取两点,然后画一条直线连接这两点,那么这条直线将始终位于这两点之间图像的上方或与之重合。换成期望值的语境,就是随机变量经过凸函数的期望不小于随机变量期望的函数值。Jensen’s inequality(詹森不等式)是数学中的一条重要不等式,由丹麦数学家Johan Jensen于1906年提出。直观上说,这意味着在凸函数的图形上,任意两点间的线段总是位于函数图形的上方或与之重合。是凸的,如果对于所有的。

2024-03-02 09:34:58 1158

原创 高斯扩散过程

高斯扩散过程是一种数学模型,用于描述某些随机现象的时间演化,其中这些现象的概率密度函数(PDF)符合高斯分布,也称为正态分布。在物理和工程学领域,此类过程通常被用来描述热扩散、粒子扩散、概率密度演变等,比如某个物理量(如粒子的位置、温度、浓度等)的分布随时间发展趋向于或保持高斯分布(也称为正态分布)。

2024-03-01 20:14:18 1516

原创 模拟退火(Simulated Annealing,SA)

模拟退火(Simulated Annealing,SA)是一种全局优化算法,它用于寻找给定问题的近似全局最优解。算法受到物理中固体退火过程的启发,物质在高温下具有较高的能量状态,随着温度的缓慢降低,物质的内部结构会逐渐稳定在最低能量的晶格结构上。在优化问题中,这一过程被用来找到一个良好的近似全局最优解。

2024-03-01 18:53:45 1075

原创 常见概率分布介绍

概率分布是统计学中用于描述随机变量的概率特征的函数。μσ201这些分布在各种统计分析和机器学习算法中都有着非常重要的作用。了解和使用这些分布,可以帮助我们在处理数据和进行推断时做出更准确的决策。

2024-02-29 22:56:00 1170

原创 空间统计模型

SAR模型可以定义为一个线性模型,其中一个单元的值不仅取决于解释变量,还取决于邻近单元的值(空间滞后)。它通常包括两个主要组成部分:空间滞后的因变量,以及空间滞后的误差项。

2024-02-29 17:19:04 906

原创 时不变系统(Time-Invariant System)

时不变系统(Time-Invariant System)是一个在控制系统和信号处理领域常用的概念。一个系统如果是时不变的,那么它的特性和行为不随时间改变。这意味着,如果给这个系统一个输入信号,不管在什么时间点开始输入,它的输出将只取决于输入信号本身,而与输入信号开始的时间无关。举个例子,如果一个时不变系统在t0时刻对输入信号xt产生输出yt,那么在任意时刻tT,对输入信号xt−T的输出将会是yt−T。。在数学上,时不变系统可以用线性常微分方程或差分方程来描述。

2024-02-29 12:01:46 636

原创 快速卷积介绍

快速卷积是一种使用快速傅里叶变换(FFT)来有效计算两个序列(信号、函数等)卷积的方法。快速卷积对于数字信号处理、图像处理、音频处理等领域至关重要,因为它大大提高了计算卷积的效率。

2024-02-28 16:37:12 555

原创 Krylov matrix

Krylov矩阵在迭代方法中非常重要,因为它们与系统的特征值和特征向量有紧密的联系,并且能够在没有完整解决问题的情况下提供有用的近似信息。例如,Krylov子空间方法,如共轭梯度法(用于对称正定矩阵)和GMRES(Generalized Minimal Residual Method,用于非对称问题),就是基于构建这种类型的子空间来迭代地逼近线性方程组。Krylov矩阵是一种在数值线性代数中使用的矩阵,尤其是在迭代解法中用于求解线性方程组、特征值问题和其他线性代数问题。的一个Krylov子空间。

2024-02-28 16:35:37 662

原创 柯西矩阵介绍

在数学中,柯西矩阵的概念可以扩展到非方阵的情况。一个广义的柯西矩阵是由两组数xii1mxi​i1m​_和 _yjj1nyj​j1n​定义的一个m×nm \times nm×n矩阵,其中mmm和nnn可以不相等。Cij1xi−yjCij​xi​−yj​1​在这里,xix_ixi​是第一组数中的第iii个元素,yjy_jyj​是第二组数中的第jjj个元素,且条件是对所有的。

2024-02-28 10:51:20 1780

原创 正规矩阵(normal matrix)

正规矩阵(Normal matrix)是在线性代数中的一个概念,指的是一个与其共轭转置矩阵可交换的复数方阵。具体来说,设A是一个n×n的复数方阵,AAA∗A∗A这里的A∗表示A的共轭转置矩阵,也就是A的转置矩阵中的每个元素取共轭。UDAUDU∗DAU∗UUU∗IIAA∗A−A∗AATATA−AATATAAA正规矩阵的概念在物理学、工程学和数学的许多领域中都非常重要,尤其在量子力学和数值分析中。

2024-02-28 09:19:46 1588

原创 范德蒙行列式

范德蒙行列式是以一组数为变量的行列式,其特殊之处在于每一行的元素是前一行的元素依次乘以一个固定的数。此外,范德蒙行列式在理论和应用数学的其他领域中也有广泛的应用,包括系统理论、数值分析、编码理论以及其他需要多项式拟合和插值的领域。范德蒙行列式的一个重要应用是在拉格朗日插值法中,它可以用来确定插值多项式的系数。,范德蒙行列式可以帮助我们确认存在这样一个多项式,并且该多项式是唯一的,只要所有的。,那么行列式的值将为零,因为会有两行完全相同,使得行列式退化。这个公式表明范德蒙行列式的值是所有变量对。

2024-02-28 09:18:39 1354

原创 共轭转置概念

共轭转置在线性代数、量子力学(在波函数的内积计算中)以及信号处理等领域中非常重要。例如,在线性代数中,一个矩阵被称为正规的,如果它与自己的共轭转置可交换;它被称为Hermitian或自伴的,如果它与自己的共轭转置相等。共轭转置(Conjugate transpose),也称为埃尔米特转置(Hermitian transpose),是针对复数矩阵的操作。

2024-02-28 09:17:37 1339

原创 矩阵的对角化

概述对角化矩阵是线性代数中的一个重要概念,它涉及将一个方阵转换成一个对角阵,这个对角阵与原矩阵相似,其主要对角线上的元素为原矩阵的特征值。这样的转换简化了很多数学问题,特别是线性动力系统的求解和矩阵的幂运算。下面是对角化的一些常用方法:经典的特征值和特征向量方法:求出矩阵的特征值和对应的特征向量。如果矩阵有n个线性无关的特征向量,那么这个矩阵就可以对角化。构建一个由特征向量组成的矩阵P,以及一个对角线上元素为对应特征值的对角矩阵D。然后原矩阵A可以表示为 A=PDP−1A = PDP^{-

2024-02-27 16:17:26 1781

原创 归纳偏置(Inductive Bias)

归纳偏置(Inductive Bias)在机器学习中是一个极其重要的概念,指的是一个学习算法在面对同样的观测数据时对可能的解决方案做出的偏好。偏置太强可能会导致模型无法捕捉到数据中的所有相关模式(即欠拟合),而偏置太弱可能会使模型对训练数据过度敏感(即过拟合)。因此,理想的归纳偏置应当使模型在假设的表达力和泛化能力之间达到平衡。归纳偏置是必需的,因为没有它,一个学习算法在面对有限的数据时无法作出任何泛化。这是因为根据归纳原理,从特例(训练数据)推广到一般(新的、未见过的实例)的过程并不总是逻辑上合理的。

2024-02-27 10:39:21 433

原创 picard迭代

请注意,这个代码实际上不是计算真正的Picard迭代序列,而是在每一步中使用了所有先前点上的当前近似值对积分进行评估。Picard迭代是对泛函序列的逐点极限的应用,用以证明在一定条件下的解的存在性和唯一性。Picard迭代尤其在理论上很有用,因为它提供了证明解的存在和唯一性的一种方法。当然,这是一个特殊情况,很多其他微分方程的解不会这么容易得到,但即使在这些情况下,Picard迭代也提供了一个强大的工具来得到解的近似表达式。每次迭代,我们根据前一次的解通过积分构造出下一次的解。这就给出了第一次迭代的结果。

2024-02-27 09:55:30 1058

原创 可分矩阵和k-拟可分矩阵

在最一般的意义上,一个矩阵AAA被认为是可分的,如果它可以表示为两个矩阵的乘积,其中一个是较低秩的矩阵,另一个是对角矩阵。AB⋅CAB⋅C这里,BBB是一个实数矩阵,其列向量拥有较低的线性独立度,而CCC是一个对角矩阵,通常包含缩放因子。在某些文献中,尤其是在讨论非负矩阵分解(NMF)时,可分矩阵可能指的是一个矩阵,其所有列都可以表示为一组基列的非负线性组合。

2024-02-26 23:06:25 1180

原创 核函数概念

核函数是在机器学习领域,尤其是在支持向量机(SVM)算法中常用到的一个概念。核函数的基本想法是通过一个非线性变换将原始数据映射到一个更高维的空间,在这个新的空间中,原本线性不可分的数据可能变得线性可分。简单来说,核函数允许我们在更高维的特征空间中进行线性分类,而无需显式地计算出这个高维空间中的坐标。在原始的特征空间中,如果数据是线性不可分的,那么找到一个能将所有样本正确分类的线性分类器是不可能的。但是,通过将数据映射到更高维的空间,找到这样一个分类超平面变得可行。

2024-02-26 14:40:54 907

原创 状态空间模型(SSM)

术语状态空间模型具有非常广泛的含义,它简单地表示任何具有潜在状态的循环过程的概念。它已被用来指代不同学科中的许多不同概念,包括马尔可夫决策过程 (MDP)(强化学习(Hafner 等人,2020))、动态因果建模(DCM)(计算神经科学(Friston、Harrison 和 Penny 2003) ))、卡尔曼滤波器(控制(Kalman 1960))、隐马尔可夫模型(HMM)和线性动力系统(LDS)(机器学习)以及循环(有时是卷积)模型(深度学习)。

2024-02-26 11:36:20 2521

原创 优化进化算法

进化算法(Evolutionary Algorithms, EAs)是受自然选择和生物进化机制启发而发展起来的一类优化算法。它们使用模拟生物进化的技术来解决复杂的优化问题,其核心思想是通过选择(Selection)、遗传(Crossover)和变异(Mutation)等操作,对候选解进行迭代优化,以期寻找到问题的最优解或足够好的解。进化算法广泛应用于工程优化、机器学习、人工智能、经济模型、生态模型、机器人控制和其他领域的问题求解。

2024-02-26 09:45:13 1053

原创 动态系统(Dynamical Systems)

连续时间非线性系统dxdtfxtdtdx​fxt其中x\mathbf{x}x是状态向量,ttt是时间,而函数f\mathbf{f}f是非线性函数。离散时间非线性系统xn1fxnxn1​fxn​在这里,xnxn​表示第nnn时刻的状态向量,而函数f\mathbf{f}f表示非线性映射。非线性函数:系统的动态由非线性方程组决定,这意味着状态变量的关系可能是多项式的、指数的、对数的、三角的等等。敏感依赖于初始条件。

2024-02-25 16:37:14 992

原创 莱布尼兹积分规则

Leibniz积分法则(Leibniz Integral Rule)也被称为积分的微分法则(Differentiation under the Integral Sign),它是数学中一个用来交换微分运算和积分运算顺序的方法。Leibniz积分法则在物理学、工程学和数学中很有用,因为它能够处理变化的积分界限以及积分内部的变化因素。这个法则表明,积分的导数可以由两个部分组成:一个是积分区间内部的函数。的具体值,你可能需要使用数值积分的方法来计算这个新的积分,因为。的新积分,以及一个代入了积分上限的附加项。

2024-02-25 14:43:52 975

原创 正交多项式

勒让德多项式可以通过多种方法定义,包括罗德里格斯公式(Rodrigues’ formula)、递推关系、正交性质等。Pnx12nn!1​dxndn​x2−1n这里,PnxP_n(x)Pn​x表示第nnn阶的勒让德多项式,nnn是非负整数。拉盖尔多项式可以通过罗德里格斯公式给出,对于非负整数nnn,第nnn阶拉盖尔多项式LnxL_n(x)Ln​xL。

2024-02-25 14:07:07 1071

原创 离散正交变换

离散傅立叶变换将一个长度为NNN的复数序列xnx(n)xn变换到另一个同样长度为NNN的复数序列XkX(k)Xk。Xk∑n0N−1xn⋅e−j2πNknk012N−1Xk∑n0N−1​xn⋅e−jN2π​knk012...N−1其中,xnx(n)xn是原始序列的第nnn个样本,XkX(k)Xk是变换后序列的第kkk个样本,nnn是时域索引,kk。

2024-02-25 12:24:49 786

原创 多项式函数逼近

希尔伯特空间是一个完备的内积空间,这意味着你可以使用内积来定义距离和角度。在函数逼近的上下文中,你通常会使用L2L^2L2空间,它是所有平方可积函数的集合。在这样的空间里,两个函数fff和ggg⟨fg⟩∫abfxgxdμx⟨fg⟩∫ab​fxgxdμx这里的dμxd\mu(x)dμx是概率测度,决定了在积分过程中各点的权重。

2024-02-24 12:54:42 1253

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除