zyq_go-CSDN博客

原创第四部分：模型融合

第三部分中的建模阶段，在不调参的情况下模型精度已经很高了，但是在使用5折交叉验证进行模型性能评估的时候出现报错：KeyError: "None of [Int64Index([ 0, 1, 2, 3, 4, 6, 7, 9, 10,\n 12,\n ...\n 34928, 34929, 34930, 34931, 34932, 34933, 34934, 349

2020-09-27 22:28:55 544

逻辑回归，需要预先处理缺失值和异常值【可参考task3特征工程】；树模型，数据不需要预处理，不需要归一化，不需要处理缺失数据；鉴于task3基本没有对数据进行细致的处理，所以这里先用树模型进行建模。模型决定好了，需要对数据集进行划分。这里我是利用自己手头的数据进行分析的。首先，需要以4：1的比例划分训练集和验证集，然后再对训练集进行子训练集和子测试集的划分。关于4：1的比例进行划分，本来是借助excel的RANDBETWEEN(1,max值)进行划分，但看的教程上提到一点：关于数据..

2020-09-24 22:40:42 163

原创金融风控-Task3-特征工程

首先有一个疑问，关于特征工程部分，是否需要把上面的方法都处理一遍，比如对于有些优秀的树模型对数据处理的要求就相对比较少，所以还是建议先把后续建模阶段的要求理清楚再针对性下手比较好。这里主要写自己目前在研究的几个点：1、数据分箱特征分箱的目的：从模型效果上来看，特征分箱主要是为了降低变量的复杂性，减少变量噪音对模型的影响，提高自变量和因变量的相关度。从而使模型更加稳定。数据分桶的对象：（1）将连续变量离散化（2）将多状态的离散变量合并成少状态分箱的原因：数据的特征内的值跨度可能比较大，对.

2020-09-21 22:54:21 470

原创 DCIC-A城市巡游车与网约车运营特征对比分析-2-可视化

接前述，数据读取上次遗留下两个问题：1、该案例的数据集过多，如果每次读一个数据的部分行（比如10000行），那在拼接所有数据集的时候也是每个数据只读10000行吗？？回答：虽然我们通过更改数据类型，使得原始数据的大小有所改变，但如果想要把所有的数据集合拼接读取出来，也是依旧对内存有一定要求的。目前存在的一个疑问是：如果想把所有数据拼接起来，大家是用的concat吗？但是concat每次只能拼接两个表，所以如果表多的话，就反复concat吗？2、对于表字段含义的理解，我们接下来将以tax

2020-09-19 21:09:59 452 1

原创金融风控--2-数据分析

2.1 学习目标数据基本情况：缺失值、异常值变量间相互关系、变量与预测值之间的存在关系2.2 具体内容总体了解：shape；info()；describe()缺失值+唯一值两种类型数据：类别型数据和数值型数据（离散数值型和连续数值型）数据间相关关系（特征与特征之间+特征与目标变量之间）用pndas_profiling生成数据报告2.3 代码部分2.3.4查看缺失值的意义：纵向了解：存在nan的字段，并把nan的个数打印，主要目的是在于查看某一列nan存在的个数是否真的很大

2020-09-17 21:02:59 409

原创金融风控之贷款违约预测

task1赛题理解1.1 学习目标理解赛题数据和目标，清楚评分体系。报名+下载数据+提交示例结果1.2了解赛题赛题概况数据概况预测指标分析赛题1.2.1 赛题概况任务：预测金融风险数据来源：某信贷平台的贷款记录1.2.2 数据概况数据总量：120w+字段数：47个（15个为匿名变量）（匿名变量：即未告知数据列所属的性质的特征列）训练集以及测试集的划分：训练集：80万条测试集A: 20万条测试集B：20万条脱敏字段：employmentTitle、purpose、

2020-09-16 17:37:12 346

转载分类算法与金融风控预测类常见评估指标

分类算法常见的评估指标：1、混淆矩阵（Confuse Matrix ）(1)若一个实例是正类，并且被预测为正类，即为真正类TP(True Positive)(2)若一个实例是正类，并且被预测为负类，即为假负类FN（False Negative）(3)若一个实例是负类，并且被预测为正类，即为假正类FP（False Positive）(4)若一个实例是负类，并且被预测为负类，即为真负类TN（True Negative）2、准确率（Accuracy）常用的评价指标，但是不适合[于样本不均衡的情况。

2020-09-16 16:43:16 715

转载 DCIC-A城市巡游车与网约车运营特征对比分析-任务1

一、背景赛题说明：出租车作为城市客运交通系统的重要组成部分，以高效、便捷、灵活等优点深受居民青睐。出租车每天的运营中会产生大量的上下车点位相关信息，对这些数据进行科学合理的关联和挖掘，对比在工作日以及休息日、节假日的出租车数据的空间分布及其动态变化，对出租车候车泊位、管理调度和居民通勤特征的研究具有重要意义。出租车/网约车：上下车地点挖掘；出租车/网约车：不同日期的空间变化；出租车/网约车：泊车和调度问题；赛题任务：根据赛事方提供的出租车（包括巡游车和网约车）GPS和订单数据一综合应用

2020-09-08 20:43:44 516 3

原创利用python中的zipfile模块进行解压缩

zipfile解压

2020-06-17 11:05:56 424

原创填补缺失值的两种方法ffill和bfill

Pandas填充缺失值两种方法：bfill/ffill对比

2020-06-05 11:32:54 19667 1

原创安装Pytorch错误记录：CondaHTTPError: HTTP 000 CONNECTION FAILED for url

一、错误：二、解决办法：三、来源

2020-05-29 09:26:47 891 2

原创 dataframe转换成array

data_copy=data.values即可

2020-05-24 21:02:11 2936

原创 np.argwhere()相关

np.argwhere()相关

2020-05-24 17:11:55 726

原创 office官方推荐卸载工具--下载路径指引

修复 Office 安装错误

2020-05-22 15:00:55 190

转载多重共线性py的相关实现

多重共线性的Python实现

2020-05-11 21:11:36 225

原创多重共线性问题

多重共线性问题

2020-05-11 18:18:03 2866

转载【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task5模型融合]之stacking

文章目录什么是stacking?什么是stacking?简单来说，stacking就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。...

2020-05-09 11:50:23 190

原创如何自行构建简单数据集？

把字典格式转换为DataFrame格式，进而构建简单数据集

2020-05-07 17:27:07 1310

原创【李航-统计学习方法】第五章- 决策树-2

决策树学习-2

2020-05-07 14:23:38 1424

原创【李航-统计学习方法】第五章- 决策树-1

决策树学习-1

2020-05-05 21:23:10 274

转载 [4-1]-线性回归模型

简单回顾线性模型

2020-05-02 17:51:11 148

原创【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task3 特征工程]

一、特征工程（FS）二、task3代码-feature engineering三、问题四、总结五、Ref.

2020-05-02 10:47:16 248

转载【Datawhale】[task3]3.3代码示例

3.3 代码示例3.3.0导入数据3.3.1 利用箱线图删除异常值3.3.2特征构造3.3.3特征筛选1)过滤式2)包裹式3)嵌入式

2020-05-02 10:45:57 308

原创【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task2 数据分析]

文章目录一、EDA二、task2代码-EDA三、问题四、总结

2020-04-30 16:26:12 379

转载【Datawhale】[task2]2.3代码示例

2.3 代码示例

2020-04-30 16:23:52 409

原创【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task1 赛题理解]

[task1 赛题理解]目录一、理解框架二、1.3代码示例三、遇到bug汇总及解决方法：四、总结五、Ref.

2020-04-29 10:18:31 481 1

转载【Datawhale】[task1]1.3代码示例

1.3代码示例

2020-04-29 10:04:19 140

原创学习Markdown中的数学公式

学习Markdown中的的数学公式目录一、学习1、数学公式的基本用法:2、一些常用符号二、举例进行练习三、推荐速查文档

2020-04-28 11:44:49 283

原创 200213学习记录

magics %% 应按惯例从第一行开始-如图1而非图2图1图2关于相关性过滤中的卡方过滤，需要保证每个特征的值都是非负的，可采取的措施有：归一化，使得特征值均处于某个区间范围内。关于卡方过滤中所需特征数目K的确定。卡方检验的本质是推测两组数据之间的差异，其检验的原假设是“两组数据是相互独立的”。卡方检验返回卡方值和P值两个统计量，其中卡方值很难界定有效的范围，而P值，我们一般用0.0...

2020-02-13 21:06:40 61

原创服务器下jupyter notebook 远程访问，OSError: [Errno 99]Cannot assign requested address问题

遇到这个问题，重新在装jupyter notebook是最好的方法了，历经一个半小时的折腾后的感言。。。

2020-02-12 11:32:13 1095

原创解决pip (package location).exceptions.ReadTimeoutError

原因分析：在下载package的时候，由于国内网络原因，python包的下载速度比较慢，进而导致超时解决方案：在 pip的时候控制超时即可pip install --default-timeout=1000 +(package location)re：https://yq.aliyun.com/articles/619208...

2020-01-28 17:55:53 138

原创如何建立CSV文件

把内容放进txt文件中，然后强制改变文件后缀即可

2020-01-28 15:55:47 1169

转载安装xgboost遇到问题

1、whlhttps://blog.csdn.net/bassqmyd/article/details/808297902、git安装https://link.zhihu.com/?target=https%3A//wang-shuo.github.io/2017/02/21/%25E5%259C%25A8Windows%25E4%25B8%258B%25E5%25AE%2589%25E8%...

2019-11-30 21:09:38 138

原创更新pip 遇到“pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonh”

更换镜像网站举例：python -m pip install --upgrade pip -i https://pypi.mirrors.ustc.edu.cn/simple/re：https://blog.csdn.net/David_Yang_7/article/details/81161168

2019-11-04 14:28:35 340

weixin_43041009的博客