自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(309)
  • 资源 (7)
  • 收藏
  • 关注

转载 机器学习面试必知:知识点大全(持续更新中)

牛客网原链接知识整理–机器学习知识点整理这里做了一点小改动一、机器学习单模型1、LR的损失函数的公式和函数2、LR的推导过程3、LR如何解决共线性,为什么深度学习不强调4、LR如何防止过拟合5、LR分布式训练怎么做6、LR为什么使用Sigmoid7、SVM的损失函数8、SVM的推导过程9、SVM怎么扩展到多分类问题10、SVM分类泛化,SVM回归泛化11、LR和SVM...

2019-03-05 14:46:25 1165 1

原创 SSO单点登录分享

背景随着互联网的发展,各种网页应用或是app应用如雨后春笋般不断涌现。在这些应用中少不了的一项功能必定是用户登录,通常只有在用户登录【一般使用帐号密码作为登录凭证】才能看到不一样的内容或者是属于你的专属内容。随着你注册过的应用不断增长,你的帐户密码凭证也在不断增长。除非你学过特殊的记忆法,不然在脑海中维护这个庞大的密码库显然是一件不可能完成的事。而所有的应用都使用同一个凭证又显得过于愚蠢,为撞库提供了极大的便利性。即便是再安全的密码也有时效性,当你不小心泄漏了这个通用密码时,那将是灾难性的事故。三个月更换

2021-02-22 19:10:03 2627

原创 机器学习面试必知:DBSCAN

与传统的Kmeans相比,DBSCAN最大的不同就是不需要输入类别数k,最大的优势是可以发现任意形状的聚类簇。如果数据是稠密的,并且数据集不是凸的,那么DBSCAN就比Kmeans好用很多,如果数据不是稠密的,则不推荐用DBSCAN。输入:样本集D=(x1,x2,...,xm)D=(x_{1},x_{2},...,x_{m})D=(x1​,x2​,...,xm​),邻域数(ϵ,MinNu...

2019-04-21 19:09:06 1137

原创 机器学习面试必知:1✖️1卷积核

降维或者升维,通过改变通道数实现算是激活函数,所以相当于在模型中加入了非线形

2019-04-20 14:21:27 1465

原创 机器学习面试必知:推荐算法FM

传统的线性模型如LR中,每个特征都是独立的,如果需要特征与特征直接的交互作用,需要人工对特征进行交叉组合,例如核方法。但是在特征高度稀疏的情况下,并不能很好地进行学习。很多分解模型Factorization model如矩阵分解MF,SVD++等,这些模型可以学习到特征之间的交互隐藏关系,但是每个模型都只适用于特定的输入和场景。因此,在高度稀疏的数据场景下推荐系统FM(Factorizati...

2019-04-20 14:04:32 2335

原创 机器学习面试必知:SVM怎么扩展到多分类问题

1.类似建立二叉树的过程,每个叶子结点就是一个类别,这样成功地将二分类转化为多分类2.一对剩余方法,将一类标记为正样本其余的类都标记为负样本来训练SVM,这样不断迭代进行就能转换为多分类问题。...

2019-04-20 10:41:44 1062

原创 抽蓝球红球,蓝结束红放回继续,平均结束游戏抽取次

假设蓝x个,红y个,那么p1=xx+y,p2=yx+yp_{1}=\frac{x}{x+y},p_{2}=\frac{y}{x+y}p1​=x+yx​,p2​=x+yy​次数为1∗p1+2∗p2∗p1+...+n∗p2n−1p11*p_{1}+2*p_{2}*p_{1}+...+n*p_{2}^{n-1}p_{1}1∗p1​+2∗p2​∗p1​+...+n∗p2n−1​p1​n趋向于无穷大E=...

2019-04-17 11:51:52 1806 1

原创 生成模型与判别模型

判别模型:学习决策函数或者条件概率分布。直观来说学习的是类别之间的最优分隔面,反映的是不同类数据之间的差异优点:直接面对预测,准确率往往很高。由于直接学习的是p(y|x)或者f(x),可以对数据进行各种程度的抽象,定义特征并使用特征,从而简化学习过程。缺点:不能反应训练数据本身的特性模型:K 近邻、感知机(神经网络)、决策树、逻辑斯蒂回归、最大熵模型、SVM、提升方法、条件随机场生成...

2019-04-10 16:16:02 193

原创 机器学习面试必知:贝叶斯原理

先总结下频率派与贝叶斯派各自不同的思考方式:~频率派把未知参数θ\thetaθ当作是固定的未知常数。样本X是随机的,重点研究的是样本空间,大部分的计算也是针对样本X的分布~贝叶斯派截然相反,认为θ\thetaθ是随机变量,样本X是固定的。重点研究的是参数θ\thetaθ分布频率派很好理解,因为X样本已知,所以在最大似然方法下很容易去求得一个θ\thetaθ值使得模型的概率最大。而贝叶斯认...

2019-03-26 15:57:16 435

原创 机器学习面试必知:核技巧

许多线性模型可以转化为一个等价的对偶表示。对偶表示中,预测的基础也是在训练数据点处计算的核函数的线性组合。对于基于固定的非线性特征空间映射ϕ(x)\phi(x)ϕ(x)的模型来说,核函数由下面的关系给出k(x,x′)=ϕ(x)Tϕ(x′)k(x,x')=\phi(x)^{T}\phi(x')k(x,x′)=ϕ(x)Tϕ(x′)linrear kernel...

2019-03-14 16:24:59 332

原创 机器学习面试必知:学生t分布的神奇之处

11

2019-03-12 16:51:14 6014

原创 机器学习面试必知:KL散度

考虑某个未知的分布p(x)p(x)p(x),假定我们已经使用了一个近似的分布q(x)q(x)q(x)对它进行了建模。如果我们使用q(x)q(x)q(x)来建立一个编码体系,用来把x的值传给接受者,那么由于我们使用了q(x)q(x)q(x)而不是真正的p(x)p(x)p(x),因此在具体化x的值时,我们需要一些附加信息。我们需要的平均的附加信息量为KL(p∣∣q)=−∫p(x)lnq(x)dx−(−...

2019-03-12 15:04:12 874

原创 机器学习面试必知:牛顿法实现sqrt

牛顿法是一种常用的求方程数值解,具体方法如下若在区间III中,f(x)f(x)f(x)连续可导,且有唯一零点x0x_{0}x0​,则任取x1∈Ix_{1}\in Ix1​∈I,定义数列xn+1=xn−f(xn)f′(xn)x_{n+1}=x_{n}-\frac{f(x_{n})}{f^{'}(x_{n})}xn+1​=xn​−f′(xn​)f(xn​)​经过多次迭代后xnx_...

2019-03-11 20:38:23 567

原创 机器学习面试必知:AUC

AUC指的是ROC曲线下的面积的大小,该值能够量化地反映基于ROC曲线衡量出的模型性能。计算AUC值只需要沿着ROC横轴做积分就可以了。由于ROC曲线一般都在y=x这条直线的上方(如果处于下方,反转概率为1-p即可)所以AUC的值[0.5,1]。AUC越大,说明分类器越可能把真正的正样本排在前面,分类性能越好。...

2019-03-11 16:58:58 1385

原创 机器学习面试必知:拟牛顿法(DFP和BFGS)

牛顿法的特点就是收敛快。但是运用牛顿法需要计算二阶偏导数,而且目标函数的Hesse矩阵可能非正定。为了克服牛顿法的缺点,人们提出了拟牛顿法,它的基本思想是用不包含二阶导数的矩阵近似牛顿法中的Hesse矩阵的逆矩阵。牛顿法的迭代公式x(k+1)=x(k)+λd(k)x^{(k+1)}=x^{(k)}+\lambda d^{(k)}x(k+1)=x(k)+λd(k)d(k)=−▽2f(x(k))...

2019-03-11 15:02:09 1310

原创 机器学习面试必知:随机森林

随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。随机森林由多个决策树构成。决策树中的每一个节点都是关于某个特征的条件,为的是将数据集按照不同的响应变量一分为二。利用不纯度可以确定节点(最优条件),对于分类问题,通常采用基尼不纯度(将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率)或者信息增益(当前熵与两个新群组经加权平均后的熵之间的差值)。能否将随机森林中的基分类器由...

2019-03-10 15:41:30 1675

原创 机器学习面试必知:MLE最大似然估计与MAP最大后验概率

MLE模型已定,参数未知,MLE的目标就是找出一组参数,使得模型产生出的观测数据的概率最大arg maxu p(X;u)arg\ \underset{u}{max}\ p(X;u)arg umax​ p(X;u)假设抛十次硬币TTTHTTTHTT(H正,T反)假设正面朝上的概率是uuup(x;u)=∏ip(xi;u)=∏i=1nuxi(1−u)xip...

2019-03-07 15:08:18 2305 1

原创 机器学习面试必知:评价指标和含义

TP—正确地预测了正类,正→\rightarrow→正TN—正确地预测了负类,负→\rightarrow→负FP—错误地预测了正类,负→\rightarrow→正FN—错误地预测了负类,正→\rightarrow→负准确率Accuracy=TP+TNTP+TN+FP+FNAccuracy=\frac{TP+TN}{TP+TN+FP+FN}Accuracy=TP+TN+FP+FNTP+...

2019-03-06 15:58:13 956

原创 机器学习面试必知:特征归一化

为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。线性归一化,对原数据进行线性变换,使得结果映射到[0,1]的范围。Xnorm=X−XminXmax−XminX_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}Xnorm​=Xmax​−Xmin​X−Xmin​​零均值归一化,将原数据映射到均值为0,标准差为1的分...

2019-03-06 15:22:00 559

原创 机器学习面试必知:XGBoost简介

原始的GBDT算法基于经验损失函数的负梯度来构造新的决策树,只是在决策树构建完成后再进行剪枝。而XGBoost在决策树构建阶段就加入了正则项即Lt=∑il(yi,Ft−1(xi)+ft(xi))+Ω(ft)L_{t}=\sum_{i}l(y_{i},F_{t-1}(x_{i})+f_{t}(x_{i}))+\Omega(f_{t})Lt​=i∑​l(yi​,Ft−1​(xi​)+ft​(xi​))...

2019-03-06 14:41:04 904

原创 机器学习面试必知:GBDT

Freidman提出了梯度提升算法,利用最速下降法的近似方法,关键是利用损失函数的负梯度在当前模型的值−[∂L(y,f(xi))∂f(xi)]f(x)=fm−1(x)-[\frac{\partial L(y,f(x_{i}))}{\partial f(x_{i})}]_{f(x)=f_{m-1}(x)}−[∂f(xi​)∂L(y,f(xi​))​]f(x)=fm−1​(x)​作为回归问题提升树算...

2019-03-05 14:22:17 718

原创 机器学习面试必知:偏差-方差分析

过拟合形象确实是最大似然方法的一个不好的性质,但我们在使用贝叶斯方法对参数进行求和或者积分时,过拟合不会出现。回归线性模型中的最小平方方法也同样会产生过拟合。虽然引入正则化可以控制具有多个参数的模型的过拟合问题,但是这也会产生一个问题,如何确定正则化系数λ\lambdaλ 。我们已经知道当使用平方损失函数时,最优的预测由条件期望给出即h(x)=E[t∣x]=∫tp(t∣x)dth(x)=E[...

2019-03-04 16:50:14 1556

原创 机器学习面试必知:集成学习之Bagging,Boosting与Stacking

集成学习是一大类模型融合策略和方法的统称,其中包含多种集成学习的思想。主要有Bagging与Boosting,当然还有Stacking。BoostingBoosting的过程很类似于人类学习的过程,我们会对错误的地方反复巩固学习,是不是每个人都有一本错题集反复练习。以后学习的时候,我们就针对翻过的错误加强学习,以减少类似的错误发生。如此反复,直到犯错误的次数减少到很低的程度。所以Boost...

2019-03-04 15:25:41 1032

原创 机器学习面试必知:决策树

决策树(decision tree)是一种基本的分类与回归方法,主要优点时模型具有可读性,分类速度快,学习时利用训练数据根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括三个步骤:特征选择,决策树的生成和决策树的修剪。决策树学习的损失函数通常是正则化的极大似然函数,决策树学习的策略是以损失函数为目标函数的最小化。确定了损失函数后,学习问题就变...

2019-03-03 18:38:24 732

原创 机器学习面试必知:高斯混合模型GMM和期望最大化EM算法

通过将更基本的概率分布(例如高斯分布)进行线性组合的这样的叠加方法,可以被形式化为概率模型,被称为混合模型。通过使用足够多的高斯分布,并且调节它们的均值和方差以及线性组合的系数,几乎所有的连续概率密度都能以任意的精度去近似。我们考虑K个高斯概率密度的叠加,形式为p(x)=∑k=1KπkN(x∣uk,Σk)p(x)=\sum_{k=1}^{K}\pi_{k}N(x|u_{k},\Sigma_{...

2019-03-01 17:54:23 1925

原创 机器学习面试必知:LR中的共线性问题和解决方法

多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中,例如决策树或者朴素贝叶斯,前者的建模过程时逐渐递进,每次都只有一个变量参与,这种机制含有抗多重共线性干扰的功能;后者假设变量之间是相互独立的。但对于回归算法来说,都要同时考虑多个预测因子,因此多重共线性不可避免。我们先来看共线性的原理,假设k个自变量的多元线性回归模型:y=θ0+θ1x1+...+θkxk=θTx+ϵy=\th...

2019-03-01 13:43:10 3814 2

原创 机器学习面试必知:SVM回归的泛化

从 机器学习面试必知:SVM和LR的关系 一文中,我们可以看到SVM相比于LR的优势在于能产生稀疏解。现在把SVM应用到回归问题中,同时保持它的稀疏性。在简单的线性回归模型中,我们最小化一个正则化的误差函数12∑n=1N(yn−tn)2+λ2∣∣w∣∣2\frac{1}{2}\sum_{n=1}^{N}(y_{n}-t_{n})^{2}+\frac{\lambda}{2}||w||^{2}21​...

2019-02-28 21:30:14 880

原创 机器学习面试必知:SVM中解决泛化问题

在前面SVM一文中,我们解得的支持向量机在原始空间中是对训练数据能精确划分的如下图所示。可想而知,有大概率会出现过拟合的问题。这样的支持向量机的泛化能力较差。因此我们需要一种方式修改支持向量机,允许一些训练数据点被误分类,从而获得一个更好的泛化能力。我们允许数据点在边缘边界的错误侧,同时增加一个惩罚项,这个惩罚项随着与决策边界的距离的增大而增大。我们令这个惩罚项是距离的线性函数,为了实现它我们引...

2019-02-27 21:04:09 3487

原创 机器学习面试必知:SVM和LR的关系

面试中经常会被问到的问题与线性可分的情形一样,对于线性不可分的概率分布,我们可以用最小化正则化的误差函数来重新表示SVM。这也使得我们能够强调与logistic回归模型之间的相似性和差别。我们已经看到对于边缘边界正确的一侧数据点,即满足yntn≥1y_{n}t_{n}\geq 1yn​tn​≥1。对于其余的数据点ξn=1−yntn>0\xi_{n}=1-y_{n}t_{n}&am...

2019-02-27 15:08:49 1106

原创 机器学习面试必知:K均值聚类

假设我们有一个数据集{x1,...,xN}\left\{x_{1},...,x_{N} \right\}{x1​,...,xN​},它由D维欧几里得空间中的随机变量xxx的NNN次观测组成。引入一组DDD维向量uk,k=1,...,Ku_{k},k=1,...,Kuk​,k=1,...,K,对于每个数据点xnx_{n}xn​,我们引入一组对应的二值指示向量rnk∈{0,1}r_{nk}\in \l...

2019-02-26 21:06:02 424

原创 python 最大堆

HeapAdjust 的作用是从父节点开始遍历出一条路径,逐渐找到最大值并找到最大值。时间复杂度为log(n),一共进行了n次操作所以总的时间复杂度为nlog(n)for i in range(0,length//2+1)[::-1]: HeapAdjust(sorted_list,i,length)首先初始化最大堆,保证父节点比子节点的值要大。这里巧妙地用了HeapAdjust函数,因为...

2019-02-26 16:35:52 657

原创 机器学习面试必知:最小平方和LDA(Fisher线性判别分析)的关系

PCA无监督,LDA有监督在PCA一文中,我们简单地提到了如果是二维空间中的样本点,那么我们就是求解出一条直线使得样本投影到该直线上的方差最大。从回归的角度来看其实就是求解出一个线性函数来拟合样本点集合。所以我们可以从维度降低的角度来考察线性分类器。考虑二分类的情形,假设我们有一个D维输入向量xxx,然后我们使用y=wTxy=w^{T}xy=wTx投影到一维。我们设置一个阈值,有N1N_...

2019-02-25 20:22:13 1395 1

原创 机器学习面试必知:最大方差理论和最小平方误差理论下的PCA(主成分分析)的公式推导

最大方差理论PCA(主成分分析),旨在找到数据中的主成分,并利用这些主成分表征原始数据从而达到降维的目的。在信号处理领域,我们认为信号具有较大方差,而噪声具有较小方差。因此我们不难引出PCA的目标即最大化投影方差,也就是让数据在主轴上投影的方差最大(在我们假设中方差最大的有用信号最大化减少了噪声的影响)。对于给定的一组数据点{v1,...,vn}\left\{v_{1},...,v_{n}...

2019-02-25 16:13:10 2918

原创 机器学习面试必知:梯度消失和梯度爆炸

在深度前馈网络中假设有数据集{(x(1),y(1)),...,(x(m),y(m))}\left \{ (x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)}) \right \}{(x(1),y(1)),...,(x(m),y(m))}构建代价函数,其中sls_{l}sl​表示第lll层的节点数 J(W,b)=1m∑i=1mJ(W,b;x(i),y(i))+λ2∑l=1N...

2019-02-24 21:18:46 829

原创 机器学习面试必知:一文理解支持向量机(SVM)

1. 首先我们要是决策距离最大化我们先来求点xxx到一个超平面f(x)=wTx+bf(x)=w^{T}x+bf(x)=wTx+b的距离:假设有一点xxx,垂直投影到超平面上对应点为x0x_{0}x0​, www是垂直于超平面的一个向量, γ\gammaγ为样本xxx到超平面的距离。易知x=x0+γw∣∣w∣∣x=x_{0}+\gamma \frac{w}{||w||}x=x0​+γ∣∣w∣...

2019-02-23 20:23:10 631

原创 机器学习面试必知:Adaboost算法的精确形式

初始化数据加权系数wn=1/Nw_{n}=1/Nwn​=1/N对于m=1,...,Mm=1,...,Mm=1,...,M使用训练数据调节一个分类器ym(x)y_{m}(x)ym​(x),调节的目标是最小化加权的误差函数Jm=∑n=1Nwn(m)I(ym(xn)≠tn)J_{m}=\sum_{n=1}^{N}w_{n}^{(m)}I(y_{m}(x_{n})\neq t_{n})Jm​=n=...

2019-02-23 15:59:51 328

原创 机器学习面试必知:理解L1与L2正则化

需要最小化的总的误差函数为ED(w)+λEW(w)E_{D}(w)+\lambda E_{W}(w)ED​(w)+λEW​(w)前面的一项是我们一般所说的损失函数,后一项是正则化项。一般有L1正则化:EW(w)=∣∣w∣∣1E_{W}(w)=||w||_{1}EW​(w)=∣∣w∣∣1​L2正则化:EW(w)=∣∣w∣∣22E_{W}(w)=||w||_{2}^{2}EW​(w)=∣∣w∣∣...

2019-02-23 13:39:51 527

原创 机器学习面试必知:简单易懂的逻辑回归

##LR推导 ## LR假设有数据集{(x1,t1),...,(xn,tn)}\left \{ (x_{1},t_{1}),...,(x_{n},t_{n}) \right \}{(x1​,t1​),...,(xn​,tn​)}Φn=Φ(xn)\Phi _{n}=\Phi \left ( x_{n}\right )Φn​=Φ(xn​) 其中Φ\PhiΦ是基函数y(Φ)=σ(wTΦ)y\le...

2019-02-22 18:28:58 939

原创 cross_entry的设置tensorflow 权重更新为nan的问题

cross_entry的设置tensorflow 权重更新为nan的问题当用cifar10时,cross_entry=tf.reduce_mean(-tf.reduce_sum(y*tf.log(ylog),reduction_indices=1))无法更新权重,cross_entry=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(...

2019-01-22 17:14:01 512

原创 训练权重为nan

异或问题训练出来的值都是nan# -*- coding: utf-8 -*-import tensorflow as tfimport numpy as npimport matplotlib.pyplot as plttf.set_random_seed(55)np.random.seed(55)input_data = [[0., 0.], [0., 1.], [1., 0...

2019-01-14 15:35:15 688

七夕表白8个网页源代码合集.zip

一共8个网页,超大合集近60M。 七夕表白8个网页源代码合集.zip

2019-08-07

Modern PHP++++++.pdf.zip

Modern+PHP(中文版).rar Modern+PHP的中文翻译版。属于进阶书籍

2019-08-06

laravel框架.ppt

此PPT讲述了Laravel框架的设计概念并对其他的框架做了一个简单的对比。 一共33页PPT

2019-08-06

七夕表白html+css合集.zip

五款七夕表白html+css合集,大声说出你的故事。专属于程序员的浪漫

2019-08-06

NLP汉语自然语言处理原理与实践_郑捷(著)_.pdf

NLP汉语自然语言处理原理与实践_郑捷(著) 非常不错的学习资料

2019-04-21

PYTHON QT GUI快速编程 PYQT编程指南

PYTHON QT GUI快速编程 PYQT编程指南 适合入门python简单的界面设计

2018-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除