yougwypf1991-CSDN博客

原创决策树和随机森林学习笔记

目录1 衡量一个随机变量的不确定性1.1 信息熵1.2 Gini系数2 决策树的构建(ID3)2.1 计算系统固有熵2.2 计算分支熵2.3 计算总熵2.4 计算信息增益2.5 ID3的缺陷4 C4.54.1 对连续值的处理4.2 规避选择不相关特征4.3 缺失值处理4.4 过拟合处理4.5 C4.5的不足5 CART算法5.1 CART分类树5.2 CART回归树5.3 剪枝代码1 衡量一个随机变量的不确定性1.1 信息熵熵H(X)H(X)H(X)是描述X携带信息量的，信息量越大(值变化越多)，越

2020-08-26 16:40:51 202

转载 PCA算法始末

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。网上关于PCA的文章有很多，但是大多数只描述了PCA的分析过程，而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理，帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成纯数学文章，而是希望用直观和易懂的方式叙述PCA的数学原理，所以整个文章不会引入严格的数学推导。希望读者在看完这篇文章

2020-08-24 17:24:51 283

原创极大似然估计学习笔记

概念1 概率和统计：概率是已知模型和参数，推数据。统计是已知数据，推模型和参数；2 极大似然估计(Maximum likelihood estimation，简称MLE)：俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值，换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”；3 极大似然估计的前提假设：所有的采样都是独立同分布的。似然函数始末在散型的情形下，随机变量XXX的概率分布是已知的，但是该分布的参数θ

2020-08-19 16:59:54 1095

原创规范化学习笔记

目录规范化是解决过拟合的一种技术，常见的规范化技术有L1L_1L1、L2L_2L2规范化，这里介绍的是L2L_2L2规范化，又称为权重衰减。L2L_2L2规范化的想法是增加一个额外的项到代价函数上，这个项被称为规范化项，规范化的交叉熵表示为：C=−1n∑xj[yjlnαjL+(1−yj)ln(1−αjL)]+λ2n∑ωω2C=C0+λ2n∑ωω2C=-\frac{1}{n}\sum_{xj}[y_jln\alpha_j^L+(1-y_j)ln(1-\alpha_j^L)]+\frac{\lam

2020-08-12 15:34:06 225

原创交叉熵损失函数学习

目录为什么学习慢交叉熵代价函数为什么学习慢实际生活中我们大多数不喜欢被指出错误。想象以下一位同学在开始学习弹奏钢琴不久后，在一个听众前做了处女秀。她很紧张，开始时将八度音阶的曲段演奏得很低。她很困惑，因为不能继续演奏下去了，直到有个人指出了她其中的错误。当时，她非常尴尬。不过，尽管不开心，她却能够因为明显的犯错快速地学习到正确的东西。我们相信下次她再演奏肯定会是正确的！相反，在错误的弹奏不能很好地定义的时候，学习的过程会变得更缓慢。理想地，我们希望和期待神经⽹络可以从错误中快速地学习。但是在实际应用中，

2020-08-10 20:04:14 175

原创梯度下降法和牛顿法学习笔记

梯度下降法直接举一个二次代价函数的例子，目标函数就是：C(ω,b)=12n∑x∣∣y(x)−α∣∣2C(\omega, b)=\frac{1}{2n}\sum_x||y(x)-\alpha||^2C(ω,b)=2n1x∑∣∣y(x)−α∣∣2目的就是要寻找合适的ω\omegaω和bbb，让C≃0C \simeq 0C≃0，让y(x)y(x)y(x)和α\alphaα大小差不多。因此需要最小化这个二次代价函数。使用vvv代替ω\omegaω和bbb，假设v=v1,v2v=v_1,v_2v=v1

2020-07-14 20:17:52 233 1

原创 XGBoost学习笔记

目录1 XGBoost目标函数2 学习第ttt棵树3 泰勒形式展开3 叶子节点归组4 最优化5 树的生长如何分裂寻找最优分裂停止生长1 XGBoost目标函数XGBoost的目标函数由训练损失和正则化项两部分组成，其表达式为：Obj=∑i=1nl(yi,yi^)+∑k=1KΩ(fk)Obj=\sum_{i=1}^{n}l(y_i,\hat{y_i})+\sum_{k=1}^K\Omega(f_k)Obj=i=1∑nl(yi,yi^)+k=1∑KΩ(fk)其中第一项就是训练损失，第二项

2020-07-14 18:44:14 162

原创决策树学习笔记

目录1 如何衡量一个随机变量的不确定性1.1 信息熵1.2 Gini系数2 ID32.1 计算系统固有熵2.2 计算分支熵2.3 计算总熵2.4 计算信息增益2.5 ID3的缺陷4 C4.54.1 对连续值得处理4.2 规避选择不相关特征4.3 缺失值处理4.4 过拟合处理4.5 C4.5的不足5 CART算法5.1 CART分类树5.2 CART回归树5.3 剪枝1 如何衡量一个随机变量的不确定性1.1 信息熵熵H(X)H(X)H(X)是描述X携带信息量的，信息量越大(值变化越多)，越不确定，越不

2020-07-08 10:21:37 226

原创深度学习中的激活函数总结

目录1 激活函数概述1.1 什么是激活函数1.2 为什么使用激活函数2 激活函数详解2.1 饱和激活函数sigmoid函数tanh函数2.2 非饱和激活函数ReLULeaky ReLURReLUELUMaxout3 激活函数的选择1 激活函数概述1.1 什么是激活函数人工神经网络中的每一个神经元接收上一层神经元的输出作为作为自身的输入值，并传递给下一层神经元。在多层神经网络中，上一层神经元的输出和下一层神经元的输入之间往往具有一个函数关系，而这个函数就称为激活函数。1.2 为什么使用激活函数首先，

2020-07-02 14:56:02 347

原创机器学习中的数据加载

目录1 tensorflow中数据加载的通常方式1.1 feed_dict方式1.2 队列1.3 tf.data.Dataset方式2 为什么要解决数据加载问题3 tf.data.Dataset的使用3.1 创建Dataset对象3.1.1 from_tensor_slices3.1.2 from_tensors3.1.3 from_generator3.2 Dataset对象配置3.2.1 Batches3.2.2 Zip3.2.3 Repeat3.2.4 Map3.3 创建迭代器3.3.1 One-sh

2020-07-01 09:54:20 770

转载 Adaboost算法学习笔记

目录1 原理1.1 什么是Adaboost1.2 算法流程2 实例数据分析过程1过程2过程33 Adaboost的优缺点优点缺点1 原理1.1 什么是AdaboostAdaptive Boosting, Adaboost，翻译过来就是自适应增强，由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于：前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定

2020-06-30 17:25:21 226

原创 LSTM网络学习记录

目录1 背景2 LSTM遗忘门输入门1 背景之前学习过TF-IDF，它是根据词频统计来将文本抽象成向量。其实还有n-gram方法也都能将文本抽象成向量，但是它们对文本上下文的意思处理得不那么好。因此就有了循环神经网络，将上一时刻得状态引入到当前时刻，但随着网络深度得增加，不可避免的受到了梯度消失核梯度爆炸得诅咒。因此就有人整出了LSTM，它通过遗忘门选择丢弃掉哪些信息，通过输入门选择更新哪些信息，能够很好得规避梯度消失和梯度爆炸。2 LSTMLSTM的核心是细胞状态，细胞状态用用贯穿细胞的水平线表示

2020-06-28 09:37:54 214

原创深度学习中的梯度消失与梯度爆炸问题及其解决办法

目录问题引出梯度消失梯度爆炸如何解决问题引出在前面，我们介绍了反向传播算法，其最终极的含义就是计算偏导数∂C∂ωjkl\frac{\partial C}{\partial\omega_{jk}^{l}}∂ωjkl∂C和∂C∂bjl\frac{\partial C}{\partial b_{j}^{l}}∂bjl∂C，其中∂C∂ωjkl=αkl−1⋅δjl\frac{\partial C}{\partial\omega_{jk}^{l}}=\alpha_k^{l-1}\cdot\delta_j^l

2020-06-19 17:53:32 539 1

原创 TF-IDF学习笔记

TF-IDFTF—词频TF就是Term Frequency，即单词频率。就是统计一篇文章中某词出现的次数，它是基于这样的一个假设：查询关键字中的单词应该相对于其他单词更加重要，而文档的重要程度，也就是相关度，与单词在文档中出现的次数成正比。但是，这是非常不合理的：文章单词总数的影响如果文章1总共有100万个单词，文章2总共有1万个单词，假设一个词在文章1和文章2中均出现了1000次，但总量不同，不具可比性；不相关高频词的影响在英语中，经常出现the、a、an、this等与文章意义无关的高频词

2020-06-19 16:23:48 174

原创反向传播算法(BP)

目录1 概述2 定义3原理推导误差计算误差传播代价函数对权重的偏导数代价函数对偏置的偏导数1 概述反向传播其实是对权重和偏置变化影响代价函数过程的理解。最终极的含义就是计算偏导数∂C∂ωjkl\frac{\partial C}{\partial\omega_{jk}^{l}}∂ωjkl∂C和∂C∂bjl\frac{\partial C}{\partial b_{j}^{l}}∂bjl∂C。为了计算这些只，引入中间变量δjl\delta_j^lδjl，它表示在第lll层的第jjj个神经元上的误差

2020-06-18 20:30:56 257

转载深入理解word2vec的skip-gram模型（二）

目录Word pairs and "phases"对高频词抽样抽样率负采样（negative sampling）如何选择negative words上一篇文章我们了解skip-gram的输入层、隐层、输出层。在第二部分，会继续深入讲如何在skip-gram模型上进行高效的训练。在第一部分讲解完成后，我们会发现Word2Vec模型是一个超级大的神经网络（权重矩阵规模非常大）。举个栗子，我们拥有10000个单词的词汇表，我们如果想嵌入300维的词向量，那么我们的输入-隐层权重矩阵和隐层-输出层的权重矩阵都

2020-06-15 15:33:43 319

转载深入理解word2vec的skip-gram模型（一）

目录1 什么是Word2Vec和Embeddings？2 模型The Fake Task模型细节隐层输出层直觉上的理解1 什么是Word2Vec和Embeddings？Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理（NLP）中。那么它是如何帮助我们做自然语言处理呢？Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射，将单词从原先所属的空间映射

2020-06-15 15:13:37 254

原创关于模型评估和优化的问题记录

目录1 准确率的缺陷和解决办法2 准确率和召回率3 平均根误差RMSE4 ROC曲线5 ROC曲线相比P-R曲线有什么特点？6 余弦相似度/距离的使用场景7 什么是距离？余弦距离是严格的距离吗？8 A/B测试9 模型验证方法及其优缺点10 有规模为n的样本集，在自助法的采用过程中，对n个样本进行n次抽样，当n无穷大时，最终有多少数据未被选择？11 超参数调优有哪些方法？12 降低过拟合和欠拟合风险的方法降低过拟合风险的方法降低欠拟合风险的方法1 准确率的缺陷和解决办法准确率的缺陷：当负样本占99%时分类

2020-06-12 15:05:34 717

原创逻辑斯蒂回归和最大熵模型

目录1 逻辑回归模型1.1 逻辑斯蒂分布1.2 二项逻辑蒂斯回归模型逻辑蒂斯回归模型的特点模型学习1.3 多项逻辑蒂斯回归模型2 最大熵模型2.1 最大熵原理2.2 模型解释最大熵模型2.4 模型学习1 逻辑回归模型1.1 逻辑斯蒂分布设XXX是连续随机变量，XXX服从逻辑斯蒂分布是指XXX具有下列分布函数和密度函数：F(x)=P(X≤x)=11+e−x−μγf(x)=F′(x)=e−x−μγγ(1+e−x−μγ)2F(x)=P(X\leq x)=\frac{1}{1+e^{-\frac{x-\m

2020-06-11 19:21:20 240

原创朴素贝叶斯算法机器常用模型解析

1 朴素贝叶斯算法朴素贝叶斯算法是是基于贝叶斯定理与特征条件独立假设的分类方法。接下来我们就分别从贝叶斯原理和特征条件独立假设介绍贝叶斯算法。1.1 贝叶斯原理条件概率条件概率是指：在事件yyy已经发生的条件下，事件xxx发生的概率。条件概率可表示为P(x∣y)P(x|y)P(x∣y),其计算公式为：P(x∣y)=P(x,y)P(y)P(x|y) = \frac{P(x,y)}{P(y)}P(x∣y)=P(y)P(x,y)其中P(x,y)P(x,y)P(x,y)就是联合概率，表示xxx和y

2020-06-09 10:07:40 305

原创手撕SVM（三）

目录1 为什么SVM采用间隔最大化求解？2 什么式软间隔3 什么式KKT条件？为什么是拉格朗日乘子法？在这一篇文章中，我们介绍一下关于SVM的几个问题。1 为什么SVM采用间隔最大化求解？不同于感知机，SVM采用间隔最大化，这样找到的超平面的解是唯一的，求得的结果是最鲁棒的，对未知样本的泛化能力是最强的。而感知机等其他分类算法是基于误分类最小的策略，得到的超平面有无穷多个。2 什么式软间隔不管是在原特征空间，还是在高维的映射空间，我们都假设样本是线性可分的，也就是总能找到一个超平面能够将样本线性分

2020-06-08 08:50:54 202

原创手撕SVM（二）

0 概述在正式推导SVM之前，我们先解释一下到底什么是SVM算法。SVM 是一种二类分类模型。它的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类，具体来讲，有三种情况：SVM算法解决的问题可以分为三类：数据原本线性可分直接使用硬间隔的方法解决数据近似线性可分引入松弛变量，能容忍一定程度的错误数据线性不可分这部分就需要使用核技巧来解决1 SVM推导1.1 问题描述如下图所示，在一个多维平面上散落着正样本和负样本(我们这里画的是二维，你可以想象一下)，如果能够找

2020-06-07 17:19:30 203

原创关于特征工程方法和应用的总结

特征工程根据事物所具有的共性，所抽象出来的能代表这个事物的概念，就叫特征。而特征工程，顾名思义，是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本质上来讲，特征工程是一个表示和展现数据的过程，在实际工作中，特征工程旨在去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。1.1 数据结构化数据结构化数据类型可以看作是关系型数据库的一张表每一列都有清晰的定义，包含了数值型、类别型两

2020-06-05 18:20:30 1654

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

KangKermit的专栏

原创决策树和随机森林学习笔记

转载 PCA算法始末

原创极大似然估计学习笔记

原创规范化学习笔记

原创交叉熵损失函数学习

原创梯度下降法和牛顿法学习笔记

原创 XGBoost学习笔记

原创决策树学习笔记

原创深度学习中的激活函数总结

原创机器学习中的数据加载

转载 Adaboost算法学习笔记

原创 LSTM网络学习记录

原创深度学习中的梯度消失与梯度爆炸问题及其解决办法

原创 TF-IDF学习笔记

原创反向传播算法(BP)

转载深入理解word2vec的skip-gram模型（二）

转载深入理解word2vec的skip-gram模型（一）

原创关于模型评估和优化的问题记录

原创逻辑斯蒂回归和最大熵模型

原创朴素贝叶斯算法机器常用模型解析

原创手撕SVM（三）

原创手撕SVM（二）

原创关于特征工程方法和应用的总结

原创手撕SVM（一）

SplitCap.zip

NETMATE使用说明.pdf

imdb数据集

利用python+scapy抓取DNS数据包

学习OpenCV(中文版)随书源码.rar

学习OpenCV(中文版).pdf

自适应滤波器原理

web.py0.3.X.wps

QT学习笔记.pdf

linux串口编程说明

搭建tftp服务器实现u-boot从计算机下载文件到mini2440

普中科技单片机实验板使用操作说明

在linux下安装QT，和编译arm板需要的qt

空空如也