自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 一文读懂逻辑回归、详细回归

一、线性回归1.概念        对于一组特征,使用线性方程来进行拟合,对结果进行预测,公式如下:2.代价函数        线性回归选取的损失函数是均方误差,均方误差表示所有样本到该预测函数的欧式距离最小,代价函数如下:对每一个θ进行求导,便可以求取θ的值:更新: ,其中α为学习率3.如何选取α,如何停止更新权值&nbs

2020-06-30 07:05:30 273

原创 一文看懂机器学习-样本不均衡问题

这里简单以二分类问题说明,如果正负样本比例为1:100,这样的比例是必须得考虑的问题,也得解决样本不均匀的问题,否则训练出来的模型会具有偏向性。例如:样本中有980个正样本,20个负样本,这样模型只需要输出结果为正样本,就可以达到99.8%的正确率,但是这样的模型是没有意义的,不具备泛化性。常用的处理方式:欠抽样:将样本较多的一类,删除样本,其实二类样本数量基本保证一致,无明显差异,但是这样会造成样本的信息损失,影响模型的性能;过抽样:增加扩展样本较少的一类,两类样本数量基本达到一致,但是需要重新收

2020-06-29 09:43:28 681

原创 机器学习--特征工程

一、为什么要做特征工程?在工业也流行着一句话:“数据和特征决定了机器学习的上限,而模型和算法知识逼近这个上限的方式”,由此可见,拥有适用于当前问题的数据和特征是至关重要的,因此做特征工程目的就是拥有更加适合当前问题的数据和特征。二、数据预处理2.1 缺失错误值处理错误值处理方式:前期收集数据,数据源来源不同,可能造成数据格式不统一,需要统一格式;对于数值型的数据,某个样本出现字符型数据,可以进行人工查验或删除该数据。缺失值处理方式:删除所在的行或列;取中位数、众数、均值;使用算法预测。2.2 数

2020-06-27 16:41:21 351

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除