自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 决策树基础学习

信息熵:信息熵是1948年美国数学家香农提出的概念,他是用来表示随机数据不确定性的度量。信息熵越大,也就意味着越不稳定,信息熵越小,说明数据是越稳定(越接近或者类似)。信息熵的公式是:信息熵的单位是比特(bit)就是我们在编程中用来计算数据大小的单位。信息增益:信息增益表示特征x使得类Y的不确定性减少的程度。因此信息增益越大,那么表示对不确定性减少得越多,也就越能更清晰的分类。特征A对训练数据集D的信息增益记作g(D,A) ,定义为集合D的信息煽H(D)与特征A给定条件下D的经验条件熵H(D|

2021-12-02 15:25:52 766

原创 朴素贝叶斯基础学习

朴素贝叶斯联合概率和条件概率:1.联合概率:联合概率是包含多个条件,且所有的条件同时成立的概率。这种概率计算的方式有专门的公式,记作P(AB),其中P(A)表示A这个特征出现的概率,同理P(B)也是,在特征条件独立的情况下存在公式P(AB)=P(A)*P(B) 。2.条件概率:条件概率就是事件A在另外一个事件B已经发生的前提下发生的概率。(事件B已经发生的前提下,就是此时B作为全集)计算的公式为: P(A|B) ,如果有多个条件,那记作P(A1,A2|B)=P(A1|B)P(A2|B) 。注意:

2021-12-01 15:00:37 108

原创 K近邻算法基础

分类算法: K近邻算法,朴素贝叶斯算法,决策树,随机森林K近邻算法 K近邻算法是: 如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某个类别,则该样本也属于这个类别。他的原理就是求两点之间的距离,看距离谁是最近的,以此来区分我们要预测的这个数据是属于哪个分类。 1.先计算目标点到每一个点的距离(使用欧式距离计算) 整体开根号[(a-b)^2+(c-d)^2+...+(m-n)^2] 2.选择距离目标点最近的K个...

2021-11-30 19:01:58 613

原创 第二章 支持向量机

支持向量机( 线性可分和线性不可分)没有免费午餐定理告诉我们:没有普适的、放之四海而皆准的算法线性可分 (Linear Separable ):一条线就可以分开线性不可分 (Nonlinear Separable ):一条线无法分开当特征空间维度≥四维时,则会变成超平面。线性可分用向量来定义:如果一个数据集是线性可分的,将存在无穷多个超平面将各个类别分开。支持向量机算法:1.解决线性可分问题;2.再将线性可分问题中获得的结论,推广到线性不可分的情况。1.SVM解决线性可分问

2021-11-30 17:40:09 707

原创 第一章 机器学习(浙大胡浩基教授)

ARTHUR SAMUEL对机器学习的定义:机器学习是这样的领域,它赋予计算机学习的能力,(这种学习能力)不是通过显著式编程获得的。让计算机自己总结的规律的编程方法,叫做非显著式编程。我们规定了行为和收益函数后,让计算机自己去找最大化收益函数的行为。机器学习的定义 一个计算机程序被称为可以学习,是指它能够针对某个任务T和某个性能指标P,从经验E中学习。这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。机器人冲咖啡的例子: 任务T: 设计程序让机器人冲咖啡 经验E:

2021-11-28 18:35:20 2084

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除