自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 特征选择方法

特征选择对于模型的训练来说,当输入的数据维度过大会消耗大量的时间,而且也不是所有的属性对于模型性能的提升都是有益的,无关的属性输入反而还会降低模型的性能。在此情形下,需要对属性进行选择。方差过滤一些属性的值在某一常值附近波动极小,甚至就是常值,也就是说这些属性的方差值很小。这些属性对于映射关系的建立几乎是没有用的,在这些属性上没有区分度。如果提前对数据进行方差过滤,就可以筛选出这样的属性减少模型的输入维度。在Sklearn中,方差过滤的类为VarianceThreshold。from sklear

2021-09-26 10:34:57 255 1

原创 缺失值处理

缺失值处理真实数据一般不总是那么理想,一些属性数据常常存在缺失值,这些缺失值需要进行规范化处理以使得最大化减小对于模型性能的影响。根据缺失数据的多少,需要用以不同的策略。该属性值缺失很多,如果超过一半则考虑删除该属性。该属性值缺失较少,考虑使用填补测略。填补对于连续性数值数据,缺失值填补有多种方法:均值、众数、中位数和常值。from sklearn.impute import SimpleImputerimp_mean = SimpleImputer()imp_medain = Simp

2021-09-18 11:19:59 557

原创 数据预处理策略

数据预处理策略对于实际结构化来说,由于各个属性数据的量纲不同,其数值间可能存在较大差异。如果数据不经处理而直接输入机器学习算法中,有可能模型对于数值较大的属性数据严重依赖而忽略数值较小的属性数据,进而对算法性能产生影响。在此情况下,就需要对属性数据进行缩放处理。缩放处理策略一般有两种方法:标准化和归一化。标准化标注化一般使用Z-Score化法,这种方法基于原数据的均值和方差。使用原数据减去均值再除以方差,其公式表达如:x∗=(x−u)/σx*=(x-u)/ \sigmax∗=(x−u)/σ其中

2021-09-17 12:11:39 271

原创 双甜点预测的几点总结:

双甜点预测的几点总结:1、总览“双甜点”在油气地质领域的意思是地质甜点与工程甜点。地质甜点是指该地区有油气藏的富集;而工程甜点则是在地质甜点的基础上,该地区的油气藏又容易压裂开发。简而言之,良好储层是基础,有效开发是关键。地质甜点有关的地质参数:#mermaid-svg-GavPpVPKSaed92uG .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;

2021-07-06 21:49:21 2954

原创 地震资料处理的几个概念

地震资料属性的几个概念 2021.06.22​ 机器学习在地震资料处理的应用极大推进了物探的发展。但是,对于没有地质学背景的人来说,地震资料处理的第一步就不知从何下手。叠前与叠后:共炮检波接收到的信号经过动校正和静校正叠加形处理,形成二维数据体或者三维数据体。叠加之前位叠前,

2021-06-22 21:23:30 2805

原创 2020-10-25

于KNN分类机器学习分为以下两种:1:有监督的分类学习过程,包括 KNN,决策数2:无监督学习过程的聚类过程。有无监督的学习过程区别在于样例是否具有标签。

2021-06-14 23:14:00 44

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除