- 博客(4)
- 收藏
- 关注
原创 特征工程
(一)特征工程目标对于特征进行进一步分析,并对于数据进行处理。(二)特征工程内容1.异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;2.特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对幂律分布,可以采用公式:log(1+x1+median)log(1+x1+...
2020-03-27 14:26:40 827
原创 数据探索分析(EDA)
(一)数据探索性分析(EDA)目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。完成对于数据的探索性分析,并对于数据进行...
2020-03-24 19:52:55 522
转载 过拟合、欠拟合及其解决方案
转自伯禹AI过拟合、欠拟合及其解决方案过拟合、欠拟合的概念 权重衰减 丢弃法模型选择、过拟合和欠拟合训练误差和泛化误差在解释上述现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来...
2020-02-18 16:09:15 345
转载 线性回归
摘自伯禹线性回归主要内容包括:线性回归的基本要素 线性回归模型从零开始的实现 线性回归模型使用pytorch的简洁实现线性回归的基本要素模型为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:price=warea⋅area+wage⋅age+b...
2020-02-14 14:55:53 123
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人