zhfplay-CSDN博客

原创可解释的机器学习(XML)概览

对于模型来说，可解释性指的是模型能用通俗易懂的语言进行表达，是一种能被人类所理解的能力。具体来说就是，能够将模型的预测过程转化成具有逻辑关系的规则的能力。可解释性通常比较主观，对于不同的人，解释的程度也不一样，很难用统一的指标进行度量。

2022-10-10 01:30:31 967 1

一、主成分的个数上一篇文章《详解PCA》我们已经分析了如何计算各个成分的方向，并且能够将原样本矩阵投影到这个新的空间。但是，PCA的主要目的是降维，那么我们必须要面对的问题是：要选择几个主成分？当然我们可以用交叉验证去选取合适的主成分个数。然而，有没有更加值观的、快速的、简单的方法呢？答案是，有的！1、特征值的下降速率如果我们将协方差矩阵所有的特征值按从大到小的顺序进行排列，并且显示在一张柱...

2019-09-18 04:27:41 278

原创详解PCA

详解PCA一、PCA简介PCA（Principal component analysis，主成分分析）算法是一种基于多变量的降维技术，主要用于降维、可视化、去相关、分类、确定潜在因子、压缩和去噪音等方面。是特征工程中不可缺少的一部分，有利于我们构建更加适合模型的特征。二、从二维的角度直观理解PCA假设我们拥有样本矩阵XXX, 从点图来看，数据似乎含有某种线性结构。我们沿着这条线性结构（...

2019-09-13 20:09:18 515

原创贝叶斯决策理论

贝叶斯决策理论一、简介假设我们有一个样本（特征向量），用XXX表示。我们的总体被分为ggg个类别，记为wk(k=1,…g)w_k (k=1,\dots g)wk(k=1,…g).决策准则是一个函数，记为δ:Rp→A\delta:\mathbb{R}^p \to \mathcal Aδ:Rp→A，其中A={a1,…,ac}\mathcal A = \{a_1,\dots,a_c\}A={...

2019-05-18 20:45:36 848

原创 Bagging与随机森林

BootstrapBootstrap方法在集成学习方法中起到了很重要的作用。用一句话概括Bootstrap就是有放回的抽样。假设有mmm个样本组成的数据集DDD，又放回地抽样mmm次得到采样集D′D^{&#x27;}D′.显然DDD中有些样本会重复出现在D′D^{&#x27;}D′中，也有些样本不会出现在D′D^{&#x27;}D′中。样本在mmm次采样中始终不被采到...

2019-03-15 21:45:09 117

原创 Decision Tree续：剪枝和缺失值处理

声明：以下内容整理自周志华教授的《机器学习》，在此表达诚挚的敬意！剪枝处理目的：应对过拟合问题。如果一棵树的分支过多，意味着模型太复杂，会导致过拟合问题。也就是说训练集本身的一些特点被当作所有数据都具有的一般性质而导致过拟合。预剪枝：在决策树生成过程中，对每个节点在划分前先进行估计。若当前结点的划分不能带来决策树泛化能力的提升，则停止划分并将当前结点标记为叶节点。后剪枝：先从训练集...

2019-02-27 03:52:04 252

原创 Decision tree（决策树）

声明：以下内容整理自周志华教授的《机器学习》，在此表达诚挚的敬意！概念介绍决策树是一种常用的机器学习算法，可用于分类问题，也可以应用与回归问题。其思想是非常简单的，我们把数据想象成样本空间中的一个个点，决策树的任务就是学习如何选择特征对这个空间进行分割。分割出来的一块（在决策树中对应于一个叶子结点）就代表“某个类别的子集”（可能不纯）。当新的数据放入到这个空间，它落入到那一块，我们就知道他是...

2019-02-26 05:21:30 158

原创 Naive Bayes（朴素贝叶斯）

之前的LDA的推导其实已经涵盖了LDA，QDA和朴素贝叶斯的内容，但是今天还是想借助周志华教授的西瓜书来单独梳理一下朴素贝叶斯算法。开始之前，我们需要了解一些贝叶斯决策理论的内容。贝叶斯决策理论贝叶斯决策理论是概率框架下实施决策的基本方法。对于分类任务来说，在所有相关概率都已知的理想情况下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。假设我们的任务中有KKK个类别，Y={...

2019-02-20 00:12:03 240

原创 KNN（K近邻算法）

算法原理KNN可以说是最好理解的分类算法了（当然也可以应用于回归问题），并且KNN没有显式的学习过程，被称为是一种“懒惰学习方法”。它的基本思想是将想要进行分类的测试实例丢入训练实例的特征空间，然后找到离测试实例最近的K个训练实例，通过“投票”，返回K个样本中出现次数最多的标签。如何刻画“近”机器学习领域有很多用来刻画两个向量距离的指标，这里我们介绍四个最常用的。欧几里得距离：d12=∑...

2019-02-14 04:08:27 460

原创 LDA续：LDA之于二分类，QDA

在文章LDA（线性判别分析，Linear Discriminant Analysis）中，我们已经从贝叶斯理论的角度推导了LDA。现在我们来看LDA是如何应用于二分类问题的。两个类别的对数几率和逻辑回归一样，我们可以通过求两个类别的对数几率来判断当前数据属于哪个类别。logP(Y=1∣X=x)P(Y=0∣X=x)=logP1(x)P0(x)+logπ1π0=logπ1π0−12(μ1+μ0...

2019-02-13 20:40:36 2701 2

原创 Pandas数据结构之DataFrame（数据帧）

DataFrame是pandas的二维数据结构，可以允许不同类型的列。可以把它想象成Excel的sheet或者SQL的表。DataFrame可以接受不同的数据类型：一维ndarray的字典，列表，字典等二维ndarray结构化数组序列别的数据帧在创建数据帧的时候，你还可以将数据帧的索引（index）和列标签（column labels）作为参数传入。DataFrame的创建从...

2019-02-12 22:25:39 586

原创 Pandas数据结构之Series（序列）

Pandas常用的数据结构有两大类：series序列和data frame数据帧。由于panel面板被弃用，在这里，我们就不进行介绍了。其实panel是三维数据比较好用的数据容器。这篇文章将介绍Series数据类型。Series 序列创建序列import pandas as pdimport numpy as nps = pd.Series(data, index=index)这里...

2019-02-12 20:36:53 1050

原创 LDA（线性判别分析，Linear Discriminant Analysis）

读完周志华教授的《机器学习》中的线性判别分析章节，他从LDA实现的效果角度对其进行了推导：类间间距要尽可能大，类内间距尽可能小的基本思想通过拉格朗日乘子法可以简单解出想要的结果。但是在章节的最后，教授提到：LDA可以从贝叶斯决策理论的角度来阐释，并可证明，当两类数据同先验、满足高斯分布且协方差相等时，LDA可达到最优分类。今天，我们从贝叶斯理论的角度来阐释一回神奇的LDA.贝叶斯定理我们先...

2019-02-08 23:48:26 1771

转载 ndarray基础操作

N维数组ndarray是具有相同类型和大小的项目的（通常是固定大小的）多维容器。数组中的维和项的数量由其shape（形状）定义，该形状是指定每个维的大小的N个正整数的元组数组中的项类型由单独的数据类型对象（dtype）指定，其中一个对象与每个ndarray关联。与Python中的其他容器对象一样，可以通过对数组进行索引或切片(例如，使用整数n)，以及通过 ndarray 的方法和属性来访问...

2019-02-07 22:45:01 16713

原创 Numpy创建数组的不同方式

Numpy库是现在机器学习，深度学习等人工智能和科学计算必不可少的工具。其最核心的数据结构就是Numpy数组或者称为ndarray。注意，Numpy中的数组是要求元素同类型的，这点和Python原生的数组有些不同。所有有关Numpy的工作都是从创建一个Numpy数组开始的。现在，我们就来看看有哪些方法可以快速创建你自己的数组。将Python的列表准换成Numpy数组import Numpy ...

2019-02-07 04:46:48 431

原创线性回归（Linear Regression）

线性回归简介在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。[百度百科]线性回归可以说是最简单的模型了，经常被用于连续型变量的预测问题。如：某地区的玉米产量，某个公司的营收等。最小二乘法1最小二乘法（又称最小平方法）是一种数学优化技...

2019-02-02 23:03:43 1137

原创逻辑回归（对数几率回归，Logistic Regression）

什么是逻辑回归？逻辑回归的实质是事件发生的概率除以事件不发生的概率后取对数。这种变换，将自变量和因变量的关系变成了线性的。逻辑回归经常被用于二分类问题。当然，它也是可以应用与多分类问题的。下面我们一步一步来看逻辑回归的数学推导。逻辑回归的主要思想首先，我们定义样本xxx的类后验概率估计：p(y=1∣x)p(y=1|x)p(y=1∣x) 和 p(y=0∣x)p(y=0|x)p(y=0∣x)则...

2019-02-01 00:13:50 2204

zhfplay的博客