RainbowSea_-CSDN博客

原创西瓜书第九章聚类算法

聚类算法聚类：物以类聚。将相似的样本聚集到一起，使得同一类簇的样本尽可能接近，不同类簇的样本尽可能远离。1、距离计算距离反应了样本之间的相似程度，是对样本进行划分的重要依据。一般需要满足以下性质：非负性：dist(xi,xj)≥0dist(x_i,x_j)\ge0dist(xi,xj)≥0同一性：dist(xi,xj)=0dist(x_i,x_j)=0dist(xi,xj)=0当且仅当xi=xjx_i=x_jxi=xj对称性：dist(xi,xj)=dist(xj,xi)dist(

2022-04-29 16:28:18 602

原创西瓜书第八章集成学习

集成学习1、个体与集成“三个臭皮匠，顶个诸葛亮”，集成学习通过集合多个个体学习器的结果来提升预测结果的准确性以及泛化能力。“君子和而不同”个体学习器需要比随机猜想要强一些，个体学习器的预测结果也要具有一定的多样性。样本a样本b样本c样本a样本b样本c样本a样本b样本c学习器1110100110学习器2101010110学习器3011001110集成结果111000

2022-04-27 22:07:31 496

原创贝叶斯分类器

贝叶斯分类器1、贝叶斯决策论贝叶斯决策论是概率框架下实施决策的基本方法，对于分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。以一个多分类任务为例：假设当前有一个NNN分类问题，即Y={c1,c2,...,cN}\mathcal{Y}=\{c_1,c_2,...,c_N\}Y={c1,c2,...,cN}【定义】：λij\lambda_{ij}λij是将一个真实标记为cjc_jcj的样本误分类为cic_ici所产生的损失。

2022-04-11 21:27:02 193

原创西瓜书软间隔与支持向量回归

软间隔与支持向量回归1、算法原理在现实任务中，线性不可分的情形才是最常见的，对此可以有以下两种方法：将样本映射到更高维的空间中，使得其在该空间上线性可分。如果原始空间是有限维，即属性数有限，那么一定存在一个高维特征空间使样本可分允许支持向量机犯错，对某些无法划分的样本表示宽容，毕竟它们也有可能是一些异常样本。2、软间隔从数学角度来说，软间隔就是允许部分样本（但要尽可能少）不满足下式中的约束条件minw,b12∣∣w∣∣2s.t.yi(wTxi+b)≥1,i=1,2,...,m

2022-04-07 22:28:02 227

原创西瓜书-SVM

SVM1、算法原理从几何角度，对于线性可分数据集，支持向量机就是找距离正负样本都最远的超平面，相比于感知机，其解是唯一的，且不偏不倚，泛化性能更好1.1、超平面nnn维空间的超平面wTx+b=0w^Tx+b=0wTx+b=0，其中w,x∈Rnw,x\in \mathbb{R}^nw,x∈Rn:超平面方程不唯一法向量www和位移bbb确定一个唯一超平面法向量www垂直于超平面(缩放w,bw,bw,b时，若缩放倍数为负数会改变法向量方向)法向量www指向的那一半空间为正空间

2022-04-04 21:06:33 1197 1

原创 alpha-beta 极大极小值剪枝算法

α−β\alpha-\betaα−β极大极小值剪枝算法若正常使用搜索算法来穷举所有可能性进行判断，那范围是非常巨大的，就算3×33\times33×3的井字棋，他第一步就有9种下法，第二步就有9×89\times89×8种下法，最后一步更是达到9!9!9!种下法，更不用说15×1515\times1515×15的五子棋。所以说我们得在搜索的基础上进行剪枝，将一些根本不需要走到的分支抛弃掉，这让就能够大大减少我们的复杂度。算法原理首先，明白几个概念：为了便于搜索，我们会对棋局进行打分（比如自己四子

2022-03-28 16:36:49 1632

原创吃瓜（西瓜书）第五章神经网络

神经网络1、M-P神经元一种模拟生物行为的数学模型，接受n个输入（通常来自其他神经元），并给各个输入赋予权重计算加权和，然后与自身阈值θ\thetaθ进行比较（作差），最后经过激活函数（大于0则激活，小于则抑制）处理得到输出。理想中的激活函数为阶跃函数，当输入值大于0时，输出1对应激活，小于0时，输出0对应抑制。但其具有不连续、不光滑等不太好的性质，所以实际常用SigmoidSigmoidSigmoid函数。当多个上面的神经元连接起来的时候，就可以构成一个神经网络。2、感知机感知机（Perc

2022-03-25 22:23:27 833 1

原创吃瓜（西瓜书）第四章决策树

1、算法原理决策树的理念与我们人思考的方式差不多，每个树节点对应一种属性，而分支对应该节点属性的具体值，给你一个样本[青绿色，蜷缩，浊响][青绿色，蜷缩，浊响][青绿色，蜷缩，浊响]进行决策：第一个节点，你会回答色泽是什么，然后再沿着对应分支往下走；每到一个节点，你都要选定一种属性，然后继续往下走；最后到达叶子节点，就确定了西瓜是好是坏。根据样本集构造决策树的原理：训

2022-03-21 21:12:40 111 1

原创吃瓜（西瓜书）第三章读后

第三章线性模型一、前置知识：1、最小二乘法基于均方误差最小化模型求解的方法。2、极大似然估计已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值：样本已经确定，通过寻找使得样本出现概率最大的参数值3、凸函数与高数中的凸函数表示相反4、协方差矩阵方差：度量单个随机变量的离散程度σx2=1n−1∑i=1n(xi−xˉ)2\sigma_x^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x

2022-03-18 22:42:31 356

原创吃瓜（西瓜书）一二章读后

第一章绪论奥卡姆剃刀定理：如无必要，勿增实体，书中表述为“若有多个假设与观察一致，则选择最简单的那个。”没有免费的午餐定律：对于所有的目标真实函数f，无论使用什么学习算法，其误差都是相同的。这里的目标真实函数f是指任何能将样本映射到输出空间的函数且服从均匀分布绪论中重要介绍了一些机器学习的专业术语，对一些较重要的总结如下：1、分类与回归分类一般预测的是离散值，如好瓜、坏瓜回归一般预测的是连续值，例如西瓜的成熟度0.95.2、独立同分布同分布：整个样本空间中的样本都服从同一个分布

2022-03-14 20:49:52 1022

原创编译原理-LL(1)文法分析法实现(扳碎了给你看)C++

LL(1)文法分析法一、基本思路：计算可推出ϵ\epsilonϵ的非终结符表计算各非终结符的FIRST集计算出各产生式右侧的FIRST集计算各非终结符的FOLLOW集计算各产生式的SELECT集构造预测分析表分析输入串二、实现过程文法实例：E->TAA->+TAA->=T->FBB->*FBB->=F->iF->(E)此处用=代替ϵ\epsilonϵ，方便编程。1、对文法进行预处理首先我们先把该文法的终结符和非

2020-10-16 16:36:40 1389 2

原创 LL文法First集和Follow集通俗讲解

编译原理FIRST集和FOLLOW集一、FIRST集定义：设 G=(VT,VN,S,P)G=(V_T,V_N,S,P)G=(VT,VN,S,P)是上下文无关文法，则FIRST(α)=a∣α⇒a...,a∈VTFIRST(\alpha)= { a\vert \alpha\Rightarrow a...,a \in V_T }FIRST(α)=a∣α⇒a...,a∈VT理解定义：FIRST(A)是以A为开始符的集合，即左边为A的产生式的集合，A的所有可能推导的开头终结符或者是ϵ\epsilon

2020-10-11 17:00:05 12209 5

原创机器学习实战：fit_transform() takes 2 positional arguments but 3 were given with LabelBinarizer

解决方法:因为在scikit-learn新版本中，LabelBinarizer 不能接s收三个参数了，所以第一个解决方法就是安装先前的版本：$ pip install scikit-learn==0.18.0第二个方法就是自定义一个接受三个参数的MyLabelBinarizer来代替LabelBinarizer:from sklearn.base import TransformerMixin class MyLabelBinarizer(TransformerMixin): def __

2020-07-17 18:44:05 896

原创 leetcode56:合并区间

合并区间1.题目描叙给出一个区间的集合，请合并所有重叠的区间。示例 1：输入:[[1,3],[2,6],[8,10],[15,18]]输出:[[1,6],[8,10],[15,18]]解释:区间[1,3]和[2,6]重叠，将他们合并为[1,6].示例2:输入:[[1,4],[4,5]]输出:[[1,5]]解释:区间[1,4]和[4,5]可被1视为重叠区间2.思路看到示例...

2020-04-16 22:30:11 90

原创 leetcode691.贴纸拼词(DP解法）

贴纸拼词（DP解法）感觉这题题解太少了，DP解法在CSDN也没找到，所以在自己才“一知半解”时，就想写篇DP解法，为大家提供思路的同时，也希望能得到大家的指点。题目我们给出了 N 种不同类型的贴纸。每个贴纸上都有一个小写的英文单词。你希望从自己的贴纸集合中裁剪单个字母并重新排列它们，从而拼写出给定的目标字符串 target。如果你愿意的话，你可以不止一次地使用每一张贴纸，而且每一张贴纸的...

2020-03-19 20:37:19 366 1

原创格雷编码C++版

格雷编码浅见C++例题描述：实例1:思路：代码:例题描述：格雷编码是一个二进制数字系统，在该系统中，两个连续的数值仅有一个位数的差异。给定一个代表编码总位数的非负整数 n，打印其格雷编码序列。格雷编码序列必须以 0 开头。实例1:输入: 2输出: [0,1,3,2]解释:00 - 001 - 111 - 310 - 2思路：假设n阶的格雷编码为G(n);n+1阶为G(n...

2019-10-27 22:25:48 482

qq_44049627的博客