自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (1)
  • 收藏
  • 关注

原创 第四部分:模型融合

第三部分中的建模阶段,在不调参的情况下模型精度已经很高了,但是在使用5折交叉验证进行模型性能评估的时候出现报错:KeyError: "None of [Int64Index([ 0, 1, 2, 3, 4, 6, 7, 9, 10,\n 12,\n ...\n 34928, 34929, 34930, 34931, 34932, 34933, 34934, 349

2020-09-27 22:28:55 544

原创 金融风控-Task4-建模与调参

逻辑回归,需要预先处理缺失值和异常值【可参考task3特征工程】;树模型,数据不需要预处理,不需要归一化,不需要处理缺失数据;鉴于task3基本没有对数据进行细致的处理,所以这里先用树模型进行建模。模型决定好了,需要对数据集进行划分。这里我是利用自己手头的数据进行分析的。首先,需要以4:1的比例划分训练集和验证集,然后再对训练集进行子训练集和子测试集的划分。关于4:1的比例进行划分,本来是借助excel的RANDBETWEEN(1,max值)进行划分,但看的教程上提到一点:关于数据..

2020-09-24 22:40:42 163

原创 金融风控-Task3-特征工程

首先有一个疑问,关于特征工程部分,是否需要把上面的方法都处理一遍,比如对于有些优秀的树模型对数据处理的要求就相对比较少,所以还是建议先把后续建模阶段的要求理清楚再针对性下手比较好。这里主要写自己目前在研究的几个点:1、数据分箱特征分箱的目的:从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。数据分桶的对象:(1)将连续变量离散化(2)将多状态的离散变量合并成少状态分箱的原因:数据的特征内的值跨度可能比较大,对.

2020-09-21 22:54:21 470

原创 DCIC-A城市巡游车与网约车运营特征对比分析-2-可视化

接前述,数据读取上次遗留下两个问题:1、该案例的数据集过多 ,如果每次读一个数据的部分行(比如10000行),那在拼接所有数据集的时候也是每个数据只读10000行吗??回答:虽然我们通过更改数据类型,使得原始数据的大小有所改变,但如果想要把所有的数据集合拼接读取出来,也是依旧对内存有一定要求的。目前存在的一个疑问是:如果想把所有数据拼接起来,大家是用的concat吗?但是concat每次只能拼接两个表,所以如果表多的话,就反复concat吗?2、对于表字段含义的理解,我们接下来将以tax

2020-09-19 21:09:59 452 1

原创 金融风控--2-数据分析

2.1 学习目标数据基本情况:缺失值、异常值变量间相互关系、变量与预测值之间的存在关系2.2 具体内容总体了解:shape;info();describe()缺失值+唯一值两种类型数据:类别型数据和数值型数据(离散数值型和连续数值型)数据间相关关系(特征与特征之间+特征与目标变量之间)用pndas_profiling生成数据报告2.3 代码部分2.3.4查看缺失值的意义:纵向了解: 存在nan的字段,并把nan的个数打印,主要目的是在于查看某一列nan存在的个数是否真的很大

2020-09-17 21:02:59 409

原创 金融风控之贷款违约预测

task1赛题理解1.1 学习目标理解赛题数据和目标,清楚评分体系。报名+下载数据+提交示例结果1.2了解赛题赛题概况数据概况预测指标分析赛题1.2.1 赛题概况任务:预测金融风险数据来源:某信贷平台的贷款记录1.2.2 数据概况数据总量:120w+字段数:47个(15个为匿名变量)(匿名变量:即未告知数据列所属的性质的特征列)训练集以及测试集的划分:训练集:80万条测试集A: 20万条测试集B:20万条脱敏字段:employmentTitle、purpose、

2020-09-16 17:37:12 346

转载 分类算法与金融风控预测类常见评估指标

分类算法常见的评估指标:1、混淆矩阵(Confuse Matrix )(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive)(2)若一个实例是正类,并且被预测为负类,即为假负类FN(False Negative)(3)若一个实例是负类,并且被预测为正类,即为假正类FP(False Positive)(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative)2、准确率(Accuracy)常用的评价指标,但是不适合[于样本不均衡的情况。

2020-09-16 16:43:16 715

转载 DCIC-A城市巡游车与网约车运营特征对比分析-任务1

一、背景赛题说明:出租车作为城市客运交通系统的重要组成部分,以高效、便捷、灵活等优点深受居民青睐。出租车每天的运营中会产生大量的上下车点位相关信息,对这些数据进行科学合理的关联和挖掘,对比在工作日以及休息日、节假日的出租车数据的空间分布及其动态变化,对出租车候车泊位、管理调度和居民通勤特征的研究具有重要意义。出租车/网约车:上下车地点挖掘;出租车/网约车:不同日期的空间变化;出租车/网约车:泊车和调度问题;赛题任务:根据赛事方提供的出租车(包括巡游车和网约车)GPS和订单数据一综合应用

2020-09-08 20:43:44 516 3

原创 利用python中的zipfile模块进行解压缩

zipfile解压

2020-06-17 11:05:56 424

原创 填补缺失值的两种方法ffill和bfill

Pandas填充缺失值两种方法:bfill/ffill对比

2020-06-05 11:32:54 19667 1

原创 安装Pytorch错误记录:CondaHTTPError: HTTP 000 CONNECTION FAILED for url

一、错误:二、解决办法:三、来源

2020-05-29 09:26:47 891 2

原创 dataframe转换成array

data_copy=data.values即可

2020-05-24 21:02:11 2936

原创 np.argwhere()相关

np.argwhere()相关

2020-05-24 17:11:55 726

原创 office官方推荐卸载工具--下载路径指引

修复 Office 安装错误

2020-05-22 15:00:55 190

转载 多重共线性py的相关实现

多重共线性的Python实现

2020-05-11 21:11:36 225

原创 多重共线性问题

多重共线性问题

2020-05-11 18:18:03 2866

转载 【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task5模型融合]之stacking

文章目录什么是stacking?什么是stacking?简单来说,stacking就是当用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。...

2020-05-09 11:50:23 190

原创 如何自行构建简单数据集?

把字典格式转换为DataFrame格式,进而构建简单数据集

2020-05-07 17:27:07 1310

原创 【李航-统计学习方法】第五章- 决策树-2

决策树学习-2

2020-05-07 14:23:38 1424

原创 【李航-统计学习方法】第五章- 决策树-1

决策树学习-1

2020-05-05 21:23:10 274

转载 [4-1]-线性回归模型

简单回顾线性模型

2020-05-02 17:51:11 148

原创 【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task3 特征工程]

一、特征工程(FS)二、task3代码-feature engineering三、问题四、总结五、Ref.

2020-05-02 10:47:16 248

转载 【Datawhale】[task3]3.3代码示例

3.3 代码示例3.3.0导入数据3.3.1 利用箱线图删除异常值3.3.2特征构造3.3.3特征筛选1)过滤式2)包裹式3)嵌入式

2020-05-02 10:45:57 308

原创 【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task2 数据分析]

文章目录一、EDA二、task2代码-EDA三、问题四、总结

2020-04-30 16:26:12 379

转载 【Datawhale】[task2]2.3代码示例

2.3 代码示例

2020-04-30 16:23:52 409

原创 【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task1 赛题理解]

[task1 赛题理解]目录一、理解框架二、1.3代码示例三、遇到bug汇总及解决方法:四、总结五、Ref.

2020-04-29 10:18:31 481 1

转载 【Datawhale】[task1]1.3代码示例

1.3代码示例

2020-04-29 10:04:19 140

原创 学习Markdown中的数学公式

学习Markdown中的的数学公式目录一、学习1、数学公式的基本用法:2、一些常用符号二、举例进行练习三、推荐速查文档

2020-04-28 11:44:49 283

原创 200213学习记录

magics %% 应按惯例从第一行开始-如图1而非图2图1图2关于相关性过滤中的卡方过滤,需要保证每个特征的值都是非负的,可采取的措施有:归一化,使得特征值均处于某个区间范围内。关于卡方过滤中所需特征数目K的确定。卡方检验的本质是推测两组数据之间的差异,其检验的原假设是“两组数据是相互独立的”。卡方检验返回卡方值和P值两个统计量,其中卡方值很难界定有效的范围,而P值,我们一般用0.0...

2020-02-13 21:06:40 61

原创 服务器下jupyter notebook 远程访问,OSError: [Errno 99]Cannot assign requested address问题

遇到这个问题,重新在装jupyter notebook是最好的方法了,历经一个半小时的折腾后的感言。。。

2020-02-12 11:32:13 1095

原创 解决pip (package location).exceptions.ReadTimeoutError

原因分析:在下载package的时候,由于国内网络原因,python包的下载速度比较慢,进而导致超时解决方案:在 pip的时候控制超时即可pip install --default-timeout=1000 +(package location)re:https://yq.aliyun.com/articles/619208...

2020-01-28 17:55:53 138

原创 如何建立CSV文件

把内容放进txt文件中,然后强制改变文件后缀即可

2020-01-28 15:55:47 1169

转载 安装xgboost遇到问题

1、whlhttps://blog.csdn.net/bassqmyd/article/details/808297902、git安装https://link.zhihu.com/?target=https%3A//wang-shuo.github.io/2017/02/21/%25E5%259C%25A8Windows%25E4%25B8%258B%25E5%25AE%2589%25E8%...

2019-11-30 21:09:38 138

原创 更新pip 遇到“pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonh”

更换镜像网站举例:python -m pip install --upgrade pip -i https://pypi.mirrors.ustc.edu.cn/simple/re:https://blog.csdn.net/David_Yang_7/article/details/81161168

2019-11-04 14:28:35 340

用于练习的美国人口数据信息

用于平时数据学习,源地址为: https://raw.githubusercontent.com/selva86/datasets/master/midwest_filter.csv, 下载不出来的小伙伴可自取

2020-01-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除