自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 无监督模型-PCA主成分分析法原理和python代码

非常好的文章, 描述的很清晰, 举例, 讲解, 加代码https://www.cnblogs.com/wj-1314/p/8032780.html

2021-02-22 18:39:40 107

原创 有监督学习-逻辑回归sklearn应用举例

算法原理虽然它的名字中带有"回 归"两个字,但是它最擅长处理的却是分类问题。例如疾病预测,比赛输赢,用户等级分类等。逻辑回归主要涉及到了损失函数,预测函数,梯度下降算法。1. 预测函数需要找出一个预测函数模型,使其值输出在[ 0 , 1 ] 之间。然后选择一个基准值,如0.5 ,如果算出来的预测值大于0.5 ,就认为其预测值为1,反之则其预测值为0。函数g(z)称为Sigmoid函数,也称为Logistic函数:图像如下:2. 损失函数回顾下线性回归的损失函数,由于线性回归是连续的,所以可

2021-02-20 15:45:40 284

原创 朴素贝叶斯分类算法python代码

原理条件概率 (conditional probability) 是指在事件 B 发生的情况下,事件 A 发生的概率。通常记为 P(A | B)。贝叶斯公式中,P(A)称为"先验概率"(Prior probability),即在B事件发生之前,对A事件概率的一个判断。P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,对A事件概率的重新评估。举个简单例子例如:假设一个学校里有60%男生和4 0%女生.女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子

2021-02-16 15:47:47 605 1

原创 有监督学习-支持向量机

支持向量机原理: 参考链接, https://zhuanlan.zhihu.com/p/28660098里面的内容讲解很全, 公式推导什么的都有, 但是简单总结下支持向量机寻求最优分类边界正确:对大部分样本可以正确地划分类别。泛化:最大化支持向量间距。公平:与支持向量等距。简单:线性,直线或平面,分割超平面。基于核函数的升维变换通过名为核函数的特征变换,增加新的特征,使得低维度空间中的线性不可分问题变为高维度空间中的线性可分问题。线性核函数:linear,不通过核函数进行维度提升

2021-02-16 00:48:19 218

原创 有监督学习-线性回归原理与python代码

线性回归原理参考链接:https://www.cnblogs.com/geo-will/p/10468253.html线性回归是回归问题中的一种,线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。通过构建损失函数,来求解损失函数最小时的参数w和b。通长我们可以表达成如下公式:损失函数:就是求测试值与真实值的残差平方和:衡量参数 的优劣的评估指标,⽤来求解优参数的⼯具损失函数小,模型在训练集上表现优异,拟合充分,参数优秀损失函数大,模型在训练集上表现差劲,拟合不足,参数糟糕我

2021-02-15 15:41:58 330

原创 无监督学习-关联分析FP-growth原理与python代码

继上一章apriori关联分析算法 [https://blog.csdn.net/weixin_37825814/article/details/113801865], (https://blog.csdn.net/weixin_37825814/article/details/113801865)本文讲解FP-Growth(Frequent Pattern Growth)算法根据上一章的 Apriori 计算过程,我们可以知道 Apriori 计算的过程中,会使用排列组合的方式列举出所有可能的项集,每

2021-02-14 14:05:10 1917 2

原创 无监督学习-关联分析apriori原理与python代码

关联分析是一种无监督学习,它的目标就是从大数据中找出那些经常一起出现的东西,不管是商品还是其他什么 item,然后靠这些结果总结出关联规则以用于后续的商业目的或者其他项目需求。关联分析原理那么这里介绍两种算法, Apriori算法和FP-growth算法先讲解Apriori算法,项集(Item Set): 项集可以是单个的项,也可以是一系列项目的合集。在我们的例子中,项目就是ABCDE等商品,一个小票上的内容就可以看作一个项集,通过关联分析得到的经常一起出现的a和b可以称为一个“频繁项集”。关联

2021-02-13 21:40:53 1428 1

原创 无监督学习-DBscan原理与python代码

DBscan算法原理是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。对于一个已知的点,以它为中心,以给定的半径画一个圆,落在这个圆内的就是与当前点比较紧密的点;而如果在这个圆内的点达到一定的数量,即达到最少样本量,就可以认为这个区域是比较稠密的。在算法的开始,要给出半径和最少样本量,然后对所有的数据进行初始化,如果一个样本符合在它的半径区域内存在大于最少样本量的样本,那么这个样本就被标记为核心对象。直

2021-02-12 20:11:28 523 1

原创 无监督模型-K-means原理与python代码

无监督模型-K-means1. 算法原理第一轮,先随机在这个空间中选取N个点,我们称之为中心点,当然选取的N个点不一定是实际的数据点。接着计算所有的点到这N个点的距离,这里的距离计算仍然使用的是欧氏距离,每个点都选择距离最近的那个作为自己的中心点。这个时候我们就已经把数据划分成了N个组。使用每个组的数据计算出这些数据的一个均值,使用这个均值作为下一轮迭代的中心点。后面若干轮重复上面的过程进行迭代,当达到一些条件,比如说规定的轮次或者中心点的变动很小等,就可以停止运行了。2. 算法优缺点优点

2021-02-11 20:10:41 622 3

转载 准确率、精确率、召回率、F1值、ROC/AU

对于二分类问题,机器预测的和实际的还是会有所偏差,所以我们引入以下几个概念来评价分类器的优良。 一、TP、TN、FP、FN概念 首先有关TP、TN、FP、FN的概念。大体来看,TP与TN都是分对了情况,TP是正类,TN是负类。则推断出,FP是把错的分成了对的,而FN则是把对的分成了错的。(我的记忆方法:首先看第一个字母是T则代表分类正确,反之分类错误;然后看P,在T中则是正类,若在F中则实际为负类分成了正的。) 【举例】一个班里有男女生,我们来进行分类,把女生...

2021-02-11 11:46:03 297

原创 有监督模型-KNN(近邻算法)原理与python代码

有监督模型-KNN(近邻算法)1. 算法原理用一句话来解释 KNN 算法原理,那就是找到 K 个与新数据最近的样本,取样本中最多的一个类别作为新数据的类别。2.算法优缺点优点:简单易实现: KNN 算法把全部的数据集直接当作模型本身,当一条新数据来了之后跟数据集里面的每一条数据进行对比。对于边界不规则的数据效果较好: KNN算法把未知数据作为中心点,然后画一个圈,使得圈里有 K 个数据,所以对于边界不规则的数据,要比线性的分类器效果更好。因为线性分类器可以理解成画一条线来分类,不规则的数据则很难

2021-02-10 22:21:13 501 1

原创 数据挖掘流程

什么是数据挖掘?这个问题看似很简单,但似乎也很难有一个明确的答案。如果非要给数据挖掘一个定义的话,那么我认为数据挖掘就是寻找数据中隐含的知识并用于产生商业价值。也就是说,它是我们在数据中(尤其是在大量的数据中)找到一些有价值,甚至是非常有价值的东西的一种手段。数据挖掘怎么做?1.业务理解(Business Understanding)想象你在一个外贸公司上班,有一天,你的老板突然给你说:“小明啊,你能不能训练一个模型来预测一下明年公司的利润呢?”这就是一个业务需求了,若要解决这个问题,首先要弄明

2021-02-10 18:11:06 191

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除