m2xgo-CSDN博客

原创隐马尔科夫链HMM详解

马尔科夫链是离散的马尔科夫过程，而马尔科夫过程是一类平稳的随机过程。如果一个时间序列是马尔科夫链，设时间序列在每个时刻的状态有n种状态S={s1,s2,s3,..sn},在m时刻为si,则在m+k时刻的状态sj只与m时刻相关，与m-1,m-2,m-3...,1时刻无关:上面的条件概率说明了马尔科夫链未来状态(m+k)仅与当前状态有关(时刻m)有关，而平稳过程表明时间序列状态的转移与起始点m也无关，仅与k有关，关于平稳随机过程的定义请参见时间序列分析:AR(p),MA(q)，满足平稳性的马尔科夫过程也

2022-04-28 09:20:59 981

原创时间序列分析:AR(p)，MA(q)

满足平稳随机过程条件非白噪音时间序列可以用AR(p),MA(q),ARMA(p,q)等模型表达，通过统计量自相关系数、偏相关系数可以得到模型的相关性，得到相应的参数，时间序列广泛用于数据预测。

2022-02-24 23:04:44 3401

原创从傅里叶变换看seq2seq

通常使用循环神经网络处理NLP(自然语言处理)问题，循环神经网络模型特点决定了输出与输入维度不同，但数量相同，这显然有违常识，比如分词后中文句子'我去上班'翻译成英文后是'i am going to work',源语言与目标语言在表达同一个意思时，单词的数量是不一样的，Minh-Thang Luong 于 2016 年发表了论文“Neural Machine Translation”，引入了编码器–解码器结构，seq2seq利用这个结构可实现机器翻译、对话系统、文摘功能。一、seq2seq模型处..

2021-12-10 15:49:40 837

原创傅里叶变换

傅里叶变换是用三角函数表示目标函数，傅里叶变换广泛的应用在信号处理、偏微分方程、热力学、概率统计等领域：大到天体观测，小到我们手机中图片、音频应用等，没有傅里叶变换就没有如今丰富多彩的信息化时代。在人工智能领域中，可利用傅里叶变换证明中心极限定理，而中心极限定理是概率学最重要的基石；傅里叶变换本质是将时域的信息汇总到频域中，当两组数据的傅里叶变换结果相同时，称为两者依概率收敛。本章介绍傅里叶变换推导过程并结合代码实现傅里叶变换，按数学推导的离散傅里叶变换算法复杂度较高，本章最后介绍快速傅里叶变换（FFT）的

2021-06-28 21:40:08 1466

原创 GBDT-梯度提升决策树

前面介绍了决策树和集成算法的相关知识，本章介绍的GBDT(Gradient Boosting Decision Tree)是这两个知识点的融合，GBDT所采用的树模型是CART回归树，将回归树改造后，GBDT不仅用于回归也可用于分类，GBDT与SVM支持向量机被认为是泛化能力较强的模型。名称中的提升（Boosting）说明该算法是一种集成算法，与AdaBoosting不同的是：GBDT集成的对象必须是CART树，而AdaBoosting集成目标是弱分类器；两者迭代的方式也有区别，AdaBoosting利用上

2021-06-11 16:45:43 294

原创对抗生成网络

对抗生成网络GAN（Generative Adversarial Networks）是由蒙特利尔大学Ian Goodfellow在2014年提出的机器学习架构，与之前介绍的神经网络不同，GAN最初是作为一种无监督的机器学习模型，对抗生成网络的变体也有很多，如GAN、DCGAN、CGAN、ACGAN等，无论对抗生成网络形式为何种，对抗生成网络都由两部分组成：判别器(Discriminator)常用D表示；另一个称为生成器(Generator)用G表示。判别器与生成器的博弈过程是对抗生成网络学习过程，判别器通过

2021-04-22 21:20:55 1305

原创动态规划解决背包问题

背包问题(Knapsack problem)是一个动态规划问题，假设有n种货物，每种货物的的价值是v[i],重量是w[i],需要在背包负载有限的前提下求出具有最大货值的组合（策略），使用暴力算法也可以求出背包问题最优解，而利用动态规划可以将算法的复杂度降至接近于多项式复杂度，背包问题根据每种货物的数量限制可分为以下几种：0-1背包问题：每种货物数量1件，选择每种货物的策略是取(1)还是不取(0)。完全背包问题：每种货物数量有无限个，最终的策略是每种货物取多少件。多重背包问题：每种货物的数量为有限

2021-04-02 22:42:39 1653

原创矩阵/向量/标量间相互求导

矩阵、向量都可以表示成张量的形式，向量是矩阵的特殊形式，按实际应用可分为标量对向量求导，标量对矩阵求导、向量对向量求导、矩阵对标量求导、矩阵对向量求导、矩阵对矩阵求导等，在深度学习的反向传播(BP)中所涉及求导不外乎以上几种形式，本篇结合实例分别介绍以上各种求导过程。一、含标量的求导方式标量指的是一个实数，可看成一维向量，含标量的求导方式情形分类两类，一类是矩阵、向量对标量求导，另一类是标量对向量、矩阵求导。1.1、矩阵、向量对标量求导这种情形下矩阵为函数矩阵，向量为函数向量...

2021-03-25 14:10:35 3543

原创 LSTM-长短时记忆网络

上篇介绍了RNN循环神经网络，上篇在最后说明了RNN有梯度爆炸和梯度消失的问题，也就是说RNN无法处理长时间依赖性问题，本篇介绍的LSTM（长短时记忆网络）是应用最多的循环神经网络，当提到循环神经网络时一般都特指LSTM，如果以将RNN视为一种思想，那么LSTM是循环神经网络的具体实现。通过‘门’运算引入细胞状态的概念(Cell state),LSTM可以较好的利用历史记录信息。一、lstm前向传播lstm的模型类似于数字电路，lstm按时间维度展开后模型如下图所示：lstm比起...

2021-03-21 22:06:55 709 1

原创 RNN－循环神经网络

循环神经网络常用来做时序分析，即根据现有的按发生顺序排列的数据来预测未来的走势，循环神经网络大量用于语音分析、语言翻译、金融分析、内容推荐等领域，循环神经网络是一个大的分类，代表模型是RNN（循环神经网络）、LSTM（长短时记忆网络）,与之前介绍的全连接神经网络、卷积神经网络不同，循环神经网络在反向传播时不仅有层与层之间传递，还有时间维度上的传递。一、RNN循环神经前向传播 RNN是初级的循环神经网络，训练过程中每个序列中中间运算结果会进入下一次的输入中，其示意图如下：上图左边是R...

2021-03-15 15:04:37 387

原创卷积神经网络详解

卷积神经网络(Convolutional Neural Networks, CNN)是应用最多、研究最广的一种神经网络，卷积神经网络（以下简称CNN）主要用于图片分类，自动标注以及产品推荐系统中。以CNN实现图片分类为例，图像经过多个卷积层、池化层复合而成的组件后，实现图像降维并提取到主要特征，最后再利用全连接神经网络实现分类，一个完整CNN实现识别图像的示意图如下：将一个矩阵用其中元素最大值或平均值代替称为下采样，在CNN中称为数据池化，池化可以有效地实现数据降维；相反从池化后结果再将数据还原称.

2021-03-10 16:41:20 2717

原创 NMF非负矩阵分解

NMF非负矩阵分解是将一个非负矩阵分解成两个非负矩阵，处理有些实际问题时数据往往是非负数，其他的矩阵分解如SVD分解有时会将矩阵分解成含有负数矩阵，负数出现与实际情况相悖。NMF在图像处理、推荐系统、数据降维中有着广泛的应用，NMF在实现方法上也与其他矩阵分解有质的区别。一、理解NMFNMF将一个非负矩阵V分解成两个非负矩阵W、V，三者的关系是：V≈W*H注意中间是约等于的关系，NMF需要找出两个非负矩阵来近似原来的矩阵。不妨设V是m行n列的矩阵：V∈Rm*n,W是m行r列矩阵：W∈R...

2021-02-04 15:18:00 1743

原创基变换、线性变换与pca主成分分析

pca全称是Principle component analysis，译为主成分分析，比如描述一个人信息时会用体重、身高、发型、爱好、收入、职业等信息，有时根据一个人的体重、身高、发型基本可以确定其性别，例如说一个女孩子是假小子，可能这个女孩有一个板寸头、身材很高，从众多属性中选取一两个，而无需其他属性作为参考就确定了一个分类，pca就是这样一个处理数据常用手段，即利用较少的属性对一组数据分类，pca是一个降维的数据处理手段,现实中的数据在计算机中可以用一个m行n列矩阵表示，n列可以是体重、身高、发型、爱好

2021-01-27 14:09:33 932

原创决策树-ID3与C4.5

决策树是利用可视化的树结构实现数据的分类或回归，现实中分类比如银行根据收入、职业、婚姻状况、年龄等属性了解客户的贷款是否能按期偿还，其分类为“是”或“否”，再比如过安检时，根据旅客脸部数据分类为是否是通缉人员；回归则是为了得到具体数值，比如根据年龄、身高、性别得到目标数据的体重。决策树是一种监督学习过程，利用已经标记的数据生成树模型。依照决策树发展历程先后有ID3，C4.5和CART（Classification and Regression Trees）,其中ID3、C4.5的提出者都是一个人，C4.5是

2021-01-22 22:27:16 1646

原创逻辑回归详解

与SVM算法功能一样，逻辑回归（Logistic Regression）常用于二分类，SVM是利用内积空间的超平面实现分类，逻辑回归的实现类似于神经网络，确切的说，逻辑回归是只有一个隐藏层、隐藏层只有一个节点的神经网络。逻辑回归使用交叉熵作为损失函数，曾在讨论信息熵一篇中详细介绍过，交叉熵本质上是最大似然法，两者推导出来的损失函数是一致的。从概率学角度来看，二分类模型样本的结果只有两类，是一个二项分布：两类事件分别用X、Y表示，事件X的概率为P(X)=p,则P(Y)=1-p。如果有n个样本，X事...

2020-12-25 11:11:05 1741

原创多项式逼近连续函数

本文可作为线性代数实现线性回归的下篇,先简单回顾一下，线性代数实现线性回归中介绍了子空间的概念，把子空间想象成一个超平面，子空间中任意一个向量都可以用子空间的基线性组成，线性回归原理是已知一个超平面和超平面外的一个向量，该向量与在超平面上的投影距离最短，或者说误差最小，在得到这个投影的同时就知道了未知参数，未知参数是投影在子空间基上的坐标。上篇中介绍的空间是一个由向量组成的空间，向量中元素是实数。本文将拓展子空间的概念，空间的元素是函数称之为函数空间，这个空间里面有我们熟悉的各种函数以及这...

2020-12-21 22:04:44 4239

原创一维搜索

求解一元函数的最值过程称为一维搜索，不失一般性，本篇研究求函数最小值。由于一元线性函数可以通过单纯形法获得最小值，且单纯形算法非常稳定，所以在实践中如果需要使用一维搜索，这个一元函数通常是一个曲线函数，至少可以求二阶导数。一维搜索典型的例子是步长的确定，之前介绍的梯度求解函数最小值时，在获得函数在可行点的梯度后，需要将梯度向量取反然后乘以一个步长，这个步长不能太小，太小对于算法收敛速度太慢；当然也不能太长，太长会造成在极值点附近时穿越最值点，导致算法在极值点附近震荡。为了求一个合理的步长系数，通常可行点沿着

2020-12-21 22:00:31 1379

原创 SVM支持向量机详解

支持向量机（support vector machines, SVM）是二分类算法，所谓二分类即把具有多个特性（属性）的数据分为两类，目前主流机器学习算法中，神经网络等其他机器学习模型已经能很好完成二分类、多分类，学习和研究SVM，理解SVM背后丰富算法知识，对以后研究其他算法大有裨益；在实现SVM过程中，会综合利用之前介绍的一维搜索、KKT条件、惩罚函数等相关知识。本篇首先通过详解SVM原理，后介绍如何利用python从零实现SVM算法。为便于理解，假设样本有两个属性，可以把属性值分别对应到二...

2020-12-21 10:13:36 24522 1

原创惩罚函数将有约束优化转化为无约束优化问题

惩罚函数也叫乘子法，求解带约束的非线性规划问题时，常用KKT条件列出满足条件的方程组，解方程组后即可得到最值点，但是满足KKT条件的方程组是一个非线性方程组，利用计算机求解很难给出通用算法，本篇介绍的惩罚函数也是利用KKT条件，惩罚函数的引入可以将一个约束非线性问题转化为无约束的非线性规划，而无约束线性规划可以用梯度法等实现求解，利用惩罚函数更方便我们制成计算机算法，在现代计算机算法中，凡涉及到求解最值，都会大量的运用惩罚函数或者借鉴惩罚函数思想。惩罚函数可以分为外点法和内点法，其中外点法更通用...

2020-12-13 22:46:22 7618 6

原创单纯形法详解

单纯形法是针对求解线性规划问题的一个算法，这个名称里的'单纯形'是代数拓扑里的一个概念，可以简单将'单纯形'理解为一个凸集，标准的线性规划问题可以表示为:min（or max） f(x)=cx s.t.Ax=b x>=0,b>=0这里min. f(x)=cx指求函数最小值（也可以是求最大值），x是一个Rn维向量代表有n个...

2020-11-26 22:55:38 31926 1

原创利用线性空间、子空间实现线性回归问题

线性回归有许多建模方法可以解决，比如最小二乘法、神经网络等，本篇介绍基于线性代数利用向量、空间概念快速求解线性回归问题，掌握本章知识点后可以利用有些结论解决如函数逼近问题。一、线性空间、子空间将有限个基通过数乘、加操作张成线性空间，一个线性空间中可以最多可以用n个线性不相关的基张成，或者这里叫合成，就说这个线性空间是n维的，如果一个线性空间有n个基分别是α1,α2,α3...αn，这个线性空间可以这样表达:space=span{α1,α2,α3...αn}。注意空间的维度和向量的维度不...

2020-11-03 14:54:10 820 1

原创梯度法、模式搜索法求解最优化问题

最优化问题中常常需要求解目标函数的最大值或最小值，比如SVM支持向量机算法需要求解分类之间最短距离，神经网络中需要计算损失函数的最小值，分类树问题需要计算熵的最小或最大值等等。根据目标函数是否可求导将算法相应的分成两类，如果目标函数可求导常用梯度法，如果不能求导时一般选用模式搜索方式，一般来说梯度法较为快速，本篇还是会结合具体程序来讨论这两种方法。一、梯度法求解最优问题由数学分析知识可以知道，函数在一个点的梯度方向是函数值增大的最快方向，与之相反梯度的反方向是函数值变小的最快方向，在函数的定...

2020-11-03 14:40:06 3557

原创信息熵、交叉熵、相对熵原理与softmax函数的应用

信息熵在人工智能领域有着举足轻重的作用，尤其在分类的算法中，可利用其特性设计损失函数推导出最优数学模型；softmax函数是一种处理数据手段，一般会出现在模型最后阶段，比如各种神经网络的最后一层，经过softmax函数处理后可把任意数据（一般表现为向量）处理成概率形式，这样就可以用交叉熵的方法得到与真实概率分布之间损失，进而优化模型参数，本篇先介绍信息熵、交叉熵、相对熵，然后对softmax函数做相应介绍。一、信息熵、交叉熵、相对熵熵原本是物理中一个热力学概念，熵反应了物质无序的程度，熵越...

2020-11-02 21:25:57 555

原创 EM期望最大化算法实现二项混合分布与高斯混合分布

EM(Expectation-maximization algorithm)翻译为期望最大化算法，是数据挖掘的十大算法之一，主要解决的是当含有隐含变量时，如何利用最大似然法求解未知参数。现实中会遇到多个数据混杂在一起，这个多个类别数据虽然是一个概率分布，但数学期望或方差不同，每次取得一个数据时也不知道这个数据是哪个类别下，每个数据属于哪个类别的信息是一个隐含变量，遇到这种情况时我们不能直接用最大似然法。EM算法中文名称中就已经说明了算法过程，即先求出数学期望的函数，然后求其最大值，逐步求出未知参数。EM算法

2020-11-02 21:21:59 1083

原创 CART树分类、回归、剪枝实现

决策树ID3，C4.5是多叉树，CART树是一个完全二叉树，CART树不仅能完成分类也能实现回归功能，所谓回归指的是目标是一个连续的数值类型，比如体重、身高、收入、价格等，在介绍ID3，C4.5其核心是信息熵的应用，而在实际应用中熵的运算会涉及大量的对数运算，其复杂度还是比较高的。CART树采用了一个与熵近似的概念'基尼系数',不同于熵来自于物理学，基尼系数来自于经济学范畴，原本是用来衡量国民收入是否平均：当基尼系数为0时代表收入平均，而大于0.5时代表贫富差异显著。在决策树模型中，基尼系数越高代表信息纯度

2020-11-02 21:13:03 507

m2xgo的博客