caitzh-CSDN博客

原创机器学习笔记之——降维（三）Isomap 和 LLE

目录Isomap 和 LLE1. 等度量映射(Isomap)2. 局部线性嵌入(LLE)Isomap 和 LLE1. 等度量映射(Isomap)等度量映射 (Isomap, Isometric Mapping) 的假设是低维流形嵌入高维空间之后，直接在高维空间计算直线距离具有误导性。如下图，两个黑点之间就距离应该是经过流形曲面的红线距离，但是直接计算欧式距离得到的是两点之间的直线距离。...

2019-03-22 23:03:53 1627 1

原创机器学习笔记之——降维（二）主成分分析(PCA)

目录主成分分析(PCA)1. 坐标投影2. 最近重构性3. 最大可分性4. 求解主成分分析(PCA)1. 坐标投影主成分分析(PCA, Principal Component Analysis)是最常用的一种线性降维方法。假设原来的样本是 d 维空间，样本矩阵 X=[x1x2⋯xm]∈Rd×mX=\begin{bmatrix}x_1 & x_2 & \cd...

2019-03-22 22:58:18 332

原创机器学习笔记之——降维（一）MDS

MDS（Multiple Dimensional Scaling）关键思想：降维前后两点距离不变假设 m 个 d 维样本在原始空间的距离矩阵为 D∈Rm×mD\in \mathbb{R}^{m\times m}D∈Rm×m, 降维后的样本矩阵 Z∈Rd′×mZ\in \mathbb{R}^{d'\times m}Z∈Rd′×m, 其中 d′≪dd'\l...

2019-03-22 22:53:54 1185

原创机器学习笔记之——AdaBoost

目录AdaBoost1. 主要思想2. 算法流程3 算法解析3.1 好而不同3.2 权重更新4. 公式推导4.1 加法模型4.2 前向分步算法4.3 AdaBoost 的公式推导AdaBoost1. 主要思想AdaBoost 属于集成学习，集成学习的思想是用很多个基学习器（弱学习器）来组合成一个强学习器，通俗一点解释就是“三个臭皮匠，顶个诸葛亮”。集成学习一般要求各个学习器之间要有差异，这...

2019-03-19 23:46:02 250

决策树1. 决策树基本思想决策树是一种分类模型，由一个个的分支组成，每个分支可以看作一次决策，从上到下一个个分支组成了一棵树。比如，我们要判断一个苹果是不是好的，先看其颜色是不是鲜艳，若是颜色不好，则不是好的；若是颜色不错，则继续查看其色泽，然后再查看其香味，以此类推。每一次判断即是一次决策，决策后会得到两个或更多分支，分支之后可能立即得到结论（比如颜色不好，就能得出苹果不好的结论），也可能...

2019-03-17 22:32:04 188

原创机器学习笔记之——支持向量机（二）

支持向量机（二）1. 核函数在支持向量机（一）里，我们介绍了线性可分的情况，但是当数据本身是线性不可分时，原有的 SVM 将无法找到最优的超平面。但是我们可以把每个样本映射到高维空间里，使其线性可分，如下图所示：原来的样本在二维空间里线性不可分，但是用 ϕ\phiϕ 函数映射到 3 维空间之后，便可以用一个线性超平面将其分开。我们可以把这个思想应用到 SVM 里，来解决线性不可...

2019-03-15 22:41:23 149

原创机器学习笔记之——支持向量机（一）

支持向量机（一）1. 主要思想对于一个二分类问题，其样本分布如下所示，其中 +,−+,-+,− 分别代表正负样本，红色和绿色代表两个线性分类器，这两个分类器哪个更好呢？虽然这两个分类器都能把两类样本完全分开，训练误差为 0，但是红色的分类器更好，因为其泛化能力更强，即对新样本的判断能力更好。假设我们有两个新样本（如下图紫色样本所示）：左下角的紫色样本与正样本簇靠在一起，显然其应该属于...

2019-03-11 00:58:48 231

原创机器学习笔记之——逻辑回归

目录逻辑回归1. 逻辑回归(Logistic Regression)1.1 模型描述1.2 损失函数1.3 梯度下降求解2. 从广义线性模型看逻辑回归2.1 广义线性模型2.2 广义线性模型与逻辑回归逻辑回归1. 逻辑回归(Logistic Regression)1.1 模型描述逻辑回归虽然名字里有回归，但是实际上不是用于回归问题，而是一个分类模型。考虑一个二分类任务，其输出标签 y∈{...

2019-03-05 16:56:53 327

原创机器学习笔记之——线性回归

目录线性回归1. 线性回归简介1.1 模型描述1.2 求解方法一：矩阵运算1.3 求解方法二：梯度下降2. 用最大似然和贝叶斯后验看线性回归2.1 最大似然2.2 贝叶斯后验线性回归1. 线性回归简介1.1 模型描述对于有 m 个样本的数据集 D，每个样本 x=[x1,x2,…,xd]T\boldsymbol x=[x_1, x_2,\dots,x_d]^Tx=[x1,x2,…,xd...

2019-03-03 21:43:38 313

原创机器学习笔记之——分类任务常用指标

目录分类任务常用指标1. 错误率与精度2. 查准率、查全率与 F12.1 混淆矩阵(confusion matrix)2.2 查准率(Precision)与查全率(Recall)2.3 P-R 曲线2.4 F1 score2.5 micro-F1 和 macro-F13. ROC 与 AUC3.1 ROC 曲线与 AUC 简介3.2 AUC 计算公式分类任务常用指标假设数据集 D 总共有 m...

2019-03-02 22:32:22 1218

原创机器学习笔记之——模型评估与选择

目录经验误差与过拟合经验误差与泛化误差过拟合评估方法留出法交叉验证法自助法经验误差与过拟合经验误差与泛化误差学习器的预测输出与真实样本之间的差异称为误差，根据样本的不同可以分为：经验误差：又称训练误差，指学习器在训练集上的误差泛化误差：指学习器在新样本（测试集）上的误差过拟合我们的目标是希望泛化误差尽可能的小，但是我们事先并不知道新样本是怎么样的，我们手头有的只是训练集的样本，因...

2019-02-19 00:46:11 172

caitzh的博客