弱音ハク-CSDN博客

原创 20220625 make和makefile（2）

c++后台学习日志，记录用，不全，你看了你上当。

2022-06-25 23:55:11 523 1

原创 20220625 make和makefile

c++后台学习日志，仅仅起着个人记录作用

2022-06-25 13:19:36 129

原创机器学习（15）随机梯度下降和Mini-Batch梯度下降

随机梯度下降和Mini-Batch梯度下降随机梯度下降在大数据背景下，普通梯度下降：由此可见，当数据比较庞大时，比如30亿数据。每次梯度下降时，都需要遍历所有的3亿样本点，再加上要达到全局最优点，需要执行迭代多次梯度下降算法，由此可见普通梯度下降对大数据不适用，需要改进。思想：因为数据比较大，我们直接每输入一个样本就执行一次梯度下降算法，而不是遍历全部样本后再执行梯度下降算法，可能下降过程在全局最优点左右徘徊，但最终会收敛到全局最优点附近，因为数据量比较。先第一步随机打乱样本集，然后每输入一个

2021-10-23 09:32:37 421

原创机器学习（14）推荐算法

推荐算法基于内容的推荐算法协同过滤算法低秩矩阵分解均值规范化基于内容的推荐算法有5个电影，4个人对电影的评分，假设每部电影有2种特征量,即x(i)∈R(2)x^{(i)} \in R^{(2)}x(i)∈R(2)，如何估算出图中问号的值呢？我们假设每个用户jjj有一个参数向量θ(j)\theta^{(j)}θ(j)，在此例中θ(j)∈R(2)\theta^{(j)}\in R^{(2)}θ(j)∈R(2)。用户的参数向量与电影的特证向量维度是相同的。那么与用户对每部电影的评分为：(θ(j))Tx(i

2021-10-22 21:49:59 371

原创机器学习（13）异常检测

异常检测定义与应用高斯分布异常检测算法对模型进行评估异常检测VS监督学习对数据处理多元高斯分布多元和多个一元高斯分布模型区别补充内容：Σ\SigmaΣ和μ\muμ对模型的影响定义与应用异常检测就是在样本集中发现与绝大部分相异的样本点，也就是离群样本。可用于检测计算机系统异常，检测飞机系统异常等。高斯分布高斯分布也称正态分布，若一个随机变量X服从高斯分布，记为：x∼N(μ，σ2)x \sim N( \mu，\sigma^2)x∼N(μ，σ2)具体公式为：图像为：异常检测算法数据集：{x(1

2021-10-21 01:03:52 377

原创机器学习（12）PCA

PCA应用PCA的目的在很多场景中需要对多变量数据进行观测，在一定程度上增加了数据采集的工作量。更重要的是：多变量之间可能存在相关性，从而增加了问题分析的复杂性。所以，我们在减少需要分析的特征变量同时，尽量减少原指标包含信息的损失，以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系，因此可以考虑将关系紧密的变量变成尽可能少的新变量。PCA原理PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。PCA的主要思想是

2021-10-17 11:55:36 212

原创机器学习（11）K-means算法

K-means算法简介算法流程优化目标初始化簇中心的选取簇的数量选取简介监督学习是：把带有标签的样本集求得决策边界，把样本划分成几种，通过假设函数去拟合样本集。无监督学习是：它的样本集没有标签，寻找样本集中相似的她特征，把样本集划分成几个簇。K-means算法又叫做K均值算法，它是无监督学习的一种。它是个迭代算法，算法内部有两个循环。1.簇分配。选取几个簇中心，遍历整个样本集，每个样本距离那个簇中心近，就被划分到这个簇。2.中心移动。在每个簇内部，计算整个样本的平均值，得到一个新的簇中心，取代

2021-10-15 23:08:15 186

原创机器学习（10）支持向量机（SVM）（残缺版）

支持向量机（SVM）简介支持向量机（support vector machines）是一种二分类模型，属于监督学习的一种，它的决策边界是：学习样本求解的最大边距超平面。它的目标就是寻找一个超平面，把数据样本分成两类，分割的要求是所有样本距离超平面的距离最大，最终转化为一个凸二次规划问题来求解。在解决实际问题时，会有以下两种情形：线性可分的数据集非线性可分的数据集线性可分是指能使用线性组合组成的超平面将两类集合分开，线性不可分则没有能将两类集合分开的超平面...

2021-10-12 18:16:39 190

原创机器学习（9）误差分析、查准率和召回率

误差分析、查准率和召回率误差分析不对称性分类的误差分析查准率和召回率查准率和召回率的权衡侧重查准率：侧重召回率：查准率和召回率的调和平均数误差分析在构建模型时，Andrew Ng教授建议以下步骤：首先快速构建一个粗糙的模型，不要求精度，并通过交叉检验来测试模型。然后通过学习曲线的方法来查看更多特征、更多数据集是否起作用，即确定构建的模型是否存在高偏差或者高方差的情况。还可以通过误差分析的方式，比如我们在构建完一个垃圾邮件分类模型后，用交叉检验来测试模型，我们重点分析分类错误的邮件特征，并以此来调整模型

2021-10-10 16:35:11 497

原创机器学习（8）模型评估、选择、误差诊断和学习曲线

模型评估评估假设当我们通过对数据集不断训练得到一个假设模型，那么如何评价你的假设模型呢?因为假设模型对数据集存在着过度拟合的情况，即得到假设模型的$

2021-10-10 11:02:59 377

原创机器学习（7）BP神经网络

BP神经网络概述BP(Back Propagation)神经网络，即反向传播神经网络。它是一种按误差逆向传播算法训练的多层前馈网络，并且层与层之间存储着大量输入-输出映射关系。它的训练规则是通过把误差反向传播，使用梯度下降算法，从而调整网络中的权重，是的最终误差最小。基本思想它有三层组成：输入层、隐含层和输出层。隐含层的权重我们无法得知，但是可以通过输出层结果和预期结果的误差来间接调整隐含层的权重。正向传播：输入样本通过输入层输入，由中间的隐含层进行处理后，由输出层输出。若输出的结果与预期的结果

2021-10-08 17:52:33 1013 1

原创机器学习（6）过度拟合与正则化

过度拟合与正则化过度拟合1.什么是过度拟合由图所示：第一张图，只用的一阶多项式，不能很好的拟合数据集，这种情况称为欠拟合第二张图，用的二阶多项式，比较好的拟合了数据集。第三张图，比较极端，为了完全更好的拟合数据集，使用了四阶多项式。很明显它只对现有样本做了很好的拟合，而并不能很好地泛化，这样的问题，我们称之为过渡拟合。（泛化：指的是一个假设模型能够应用到新样本的能力）下图案例也是：第三张图的模型太过于复杂了。总之，在假设模型是，要尽可能的简单，不能为了拟合数据，假设高阶次，多参数，过

2021-09-28 12:18:52 193

原创机器学习（5）统计分类与逻辑回归

统计分类分类问题邮件是否垃圾邮件，肿瘤是否是恶性，网站是否遭受攻击等，都属于二分类问题（0 or 1)。到具体的问题时，所使用的数据集可能有多个特征，但目标（输出）只有(0,1)这两种取值。0表示负类，1表示正类。逻辑回归逻辑回归(logistic 回归)，它的特点是输出或者预测值一直介于（0，1）之间。假设函数逻辑回归的假设函数表达式为：我们把其中的θ^Tx = z,定义一个g(z)函数，那么它就是Sigmoid函数，也叫Logistic function（逻辑函数），它的图像为：具

2021-09-27 13:06:12 182

原创机器学习（4）正规方程

正规方程正规方程的介绍梯度下降算法通过不断迭代调整θ值，使得损失函数J(θ)最终收敛，最终得到最佳匹配数据的函数。而正规方程法则是直接求出θ值。1.直接法：比较直接的是通过求偏导得到θ值。如下图：这种方法很明显有很大的缺陷。适用于特征量比较少的问题，即变量θ比较少时，比较方便。但是在实际问题中，一个模型的特征量可能有几百，几万个，这时候求偏导就不方便了。2.正规方程：直接把变量θ看成实数，而正规方程则是通过向量来求解问题。举个例子：构建两个 X,y的矩阵。而向量θ的求解公式为：通过正

2021-09-26 12:26:41 172

原创机器学习（3）多元梯度下降法

多元梯度下降法多元梯度下降法1.定义与公式当特征量不只一个时，例如下图的案例：预测房屋价格时，需要考虑多种因素，我们建立如下的线性回归模型：此时要把θ和x都看成时两个向量。为了寻找数据的最佳函数匹配，求对应的损失函数的最小值：为了方便计算右边最好除以2m，而不是2。由上一节的单变量线性回归的梯度下降算法容易推导出多元的情况：其实无论单变量还是多元公式都是一样的，只是θ0 中的x0为1，计算过程：每次下降迭代都要计算全部的θ值后再带入回归模型hθ(x)。2.特征缩放以两个特

2021-09-26 10:10:02 258

原创机器学习（2）线性回归，代价函数和梯度算法

线性回归，代价函数和梯度算法线性回归根据数据集(date set），得到最可能的曲线与数据相拟合，属于监督学习的一种。一下以单变量线性回归为例：代价函数为了确定哪种函数或者曲线能够更好的拟合数据，需要一个评价标准。以上面的例子为基础，根据得到的函数，输入所有数据的特征值，得到计算值，然后与相应的实际值求差方，得到如下公式：m为样本总量，除以2的目的是方便后续计算。平方差的第一项为计算值，后一项为实际值。显而易见，为了得到最好的函数，必须确定两个参数值使左边的值最小。从而引出梯度算法。梯

2021-09-24 00:10:09 210

原创 Python基础学习（1）

Python基础学习（1）cmd中打开Mysqlmysql uroot -ppython 解释性语言，翻译一句执行一句，一行只执行一个动作python2.0不支持中文，Python3.0支持中文python2的解释器名称是：pythonpython3的解释器名称是：python3test为关键字，不能出现在函数名或文件名中，应避免在函数及文件命名中使用Python venv 是什么？venv 提供创建了轻量级的虚拟环境，用于隔离系统的python。每一

2021-09-22 23:11:15 112

原创机器学习（1）两种方法：监督学习和非监督学习

机器学习的两种方法：监督学习和非监督学习监督学习监督学习是指给定一个数据集，（数据集必须包含输入和输出，即特征和目标）从中训练出一个函数模型。当新的数据输入时能够得到预测的输出值。监督学习两种类型：分类和回归算法分类eq: 给定多个邮件，并标注垃圾邮件和非垃圾邮件，得到一个训练集。交给算法后得到模型，就可以自动区分垃圾，非垃圾邮件。回归eq: 给定一个数据集，包含每条数据是房屋面积以及它的价格。建立一个二位坐标系，每条数据是坐标系中的一个点。算法找到一个最优曲线，当再次输入房屋面积时可以预

2021-09-22 22:49:07 2255

Wilsonlhl的博客