- 博客(34)
- 收藏
- 关注
原创 零基础入门金融风控-贷款违约预测Task2 数据分析
数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;粗略查看数据集中各特征基本统计量;缺失值和唯一值:查看数据缺失值情况查看唯一值特征情况深入数据-查看数据类型类别型数据数值型数据离散数值型数据连续数值型数据数据间相关关系特征和特征之间关系特征和目标变量之间关系用pandas_profiling生成数据报告47列数据中有22列都缺少数据,这在现实世界中很正常。‘policyCode’具有一个唯一值(或全部缺失)。
2024-02-19 13:54:01 1248
原创 Datawhale零基础入门金融风控Task1 赛题理解
赛题理解是开始比赛的第一步,赛题的理解有助于对竞赛全局的把握。通过赛题理解有助于对赛题的业务逻辑把握,对于后期的特征工程构建和模型选择都尤为重要。在开始比赛之前要对赛题进行充分的了解。比赛什么时候开始,什么时候结束,什么时候换B榜数据。和该比赛有没有类似的比赛可以参考借鉴。线上提交结果的次数往往是有限的,提前了解每日可以提交的次数。比赛使用的是什么评价指标,可以选择相同的评价指标作为线下验证的方式。
2024-02-19 10:40:06 750
原创 Graph | NetworkX 入门教程
因为您可以通过视图查找节点和边缘数据属性,并使用方法 .items()、.data() 迭代数据属性。这种灵活性非常强大,因为它允许图形组成的图形,文件组成的图形,函数组成的图形等等。根据定义,图形是节点(顶点)以及已识别的节点对(称为边,链接等)的集合。边的元组可以是 2 元组节点,也可以是 3 元组:在 2 个节点后跟边的属性字典,如。诸如权重、标签、颜色或任何您喜欢的 Python 对象之类的属性都可以附加到图形、节点或边上。)对象,例如,文本字符串、图像、XML对象、另一个图、自定义节点对象等。
2024-01-15 15:05:44 982 1
原创 PrestoSQL(trino)和Hive SQL的日期格式转换对比
【代码】PrestoSQL(trino)和Hive SQL的日期格式转换对比。
2023-11-08 15:41:51 555
原创 KNN算法及其应用
假如一套房子打算出租,但不知道市场价格,可以根据房子的规格(面积、房间数量、厕所数量、容纳人数等),在已有数据集中查找相似(K近邻)规格的房子价格,看别人的相同或相似户型租了多少钱。我们本次用到的数据集是 🏆rent_price,大家可以通过ShowMeAI的百度网盘地址下载。🏆实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『实战』,或者点击这里获取本文[40]图解机器学习 | KNN算法及其应用房屋出租价格预测数据集⭐ShowMeAI官方GitHub。
2023-09-21 17:53:19 614
原创 PRESTO SQL总结
('month',create_time,end_time),结果是先计算天差后与create_time的月份天数比较,看是否足月。date_trunc日期截取函数,输出结果也为日期型,非常方便与其他日期型函数结合参与运算,如date_diff,date_add,官方文档见图。是varchar类型,date_add与date_trunc函数都是需要date,time类型,不支持字符串格式。var_name)s,调用时使用params参数,格式为params = {'name':'value'}
2023-03-22 16:51:42 331
原创 欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响?
欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响
2023-01-10 18:06:35 445
原创 项目中常用的19条MySQL优化
这样的语句,普通索引是无法满足查询需求的。如果连接方式是inner join,在没有其他过滤条件的情况下MySQL会自动选择小表作为驱动表,但是left join在驱动表的选择上遵循的是左边驱动右边的原则,即left join左边的表名为驱动表。区分in和exists主要是造成了驱动顺序的改变(这是性能变化的关键),如果是exists,那么以外层表为驱动表,先被访问,如果是IN,那么先执行子查询。优化的方法如下:可以取前一页的最大行数的id,然后根据这个最大的id来限制下一页的起点。
2023-01-03 10:40:34 70
原创 Python基于主成分分析的客户信贷评级
大样本的数据集固然提供了丰富的信息,但也在一定程度上增加了问题的复杂性。如果我们分别对每个指标进行分析,往往得到的结论是孤立的,并不能完全利用数据蕴含的信息。但是盲目的去减少我们分析的指标,又会损失很多有用的信息。所以我们需要找到一种合适的方法,一方面可以,另一方面尽量。变量压缩的方法非常多,但百法不离其中,其实最根本的都是(Primary Component Analysis,下简称PCA)。总的来说降维有两种方法,一种是,另一种是PCA就是一种常见的。
2022-10-18 20:05:24 367
原创 200个查理芒格思维模型---多元思维模型
本文是对查理·芒格200个思维模型的重磅汇总,值得收藏起来反复研读、推敲精进。--------前100个思维模型------------1. 机会成本 思维模型机会成本是指为了得到某种东西而所要放弃另一些东西的最大价值;也可以理解为在面临多方案择一决策时,被舍弃的选项中的最高价值者是本次决策的机会成本;还指厂商把相同的生产要素投入到其他行业当中去可以获得的最高收益。2.直觉思维模型又称为直观,通常被描述为,一种不用经过太多思考过程,很快就能出现的直接想法、感觉、信念或者偏好。当我们有某种信仰,但是不确知它的
2022-09-15 11:10:28 326
原创 风控模型师--技术篇
对于普通的决策树,是在所有样本特征中找一个最优特征来做决策树的左右子树划分,而随机森林会先通过自助采样的方法(bootstrap)得到N个训练集,然后在单个训练集上会随机选择一部分特征,来选择一个最优特征来做决策树的左右子树划分,最后得到N棵决策树,对于分类问题,按多数投票的准则确定最终结果,对于回归问题,由多棵决策树的预测值的平均数作为最终结果。交叉验证,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。
2022-09-06 12:32:17 86
原创 Apriori 算法-如何进行关联规则挖掘
目录1,关联分析2,三个重要概念3,如何寻找频繁项4,Apriori 算法5,Apriori 算法的实现6,总结在数据分析领域有一个经典的故事,叫做“尿布与啤酒”。据说,在美国西部的一家连锁超市发现,很多男人会在周四购买尿布和啤酒。这样超市就可以将尿布与啤酒放在一起卖,便可以增加销售量。“尿布与啤酒”这个案例就属于数据分析中的关联分析,也就是分析数据集中的内在隐含关系。关联分析可以被用于发掘商品与商品之间的内在关联关系,进而通过商品捆绑销售或者相互推荐,来增加商品销量。关联分析除了可以用于零售
2022-06-17 10:47:15 991
原创 金融风控建模评分卡系列:机器学习特征选择方法
在数据维度”泛滥”成灾的现代,如果不对特征进行筛选直接来建模的话不但会造成模型复杂度的提升,增加计算压力,同时也会因为数据的冗余浪费没有必要的数据费用支出。特别是在金融领域内,因为要求对模型的复杂度和可解释性都有很高的要求,所以在建模前的特征选择是及其重要的。因为每个人在建模时的习惯和方式有差别,所以在选择特征筛选方法的时候也会略有差异,以下会列举使用比较多的方法,你可以根据自己的需求进行使用。需特别说明一下特征选择没有固定的标准和尺度,这一部分需要读者根据自己的实际情况进行设计,但是总的宗旨是”降冗余”。
2022-06-17 10:45:20 326
转载 MySQL添加字段和修改字段的方法
MySQL添加字段和修改字段的方法:1.登录数据库>mysql -u root -p 数据库名称2.查询所有数据表>show tables;3.查询表的字段信息>desc 表名称;4.1添加表字段alter table table1 add transactor varchar(10) not Null;alter table
2016-12-14 16:24:56 694
转载 linux进程后台运行的几种方法 - nohup/setsid/&
我们经常会碰到这样的问题,用 telnet/ssh 登录了远程的 Linux 服务器,运行了一些耗时较长的任务, 结果却由于网络的不稳定导致任务中途失败。如何让命令提交后不受本地关闭终端窗口/网络断开连接的干扰呢?下面举了一些例子, 您可以针对不同的场景选择不同的方式来处理这个问题。nohup/setsid/&场景:如果只是临时有一个命令需要长时间运行,什么方法能最简便的保
2016-12-14 12:12:17 1401
转载 搭建或者升级Python环境笔记
搭建或者升级Python环境笔记,吐血记录!每次在新的Centos上折腾Python时,在参考之前的两篇文章(见本文结尾文章推荐)之后,总是会遇到这样那样的问题,原来是一些Python所依赖的包没有安装好,导致又得重新make&make install了遍,非常折磨人,于是找了一些资料,把Python运行时所需要的一包找全了,在正式安装Python之前,先把这些安装好,果然就没什么问题
2016-12-13 19:39:53 234
转载 python并发编程之多进程、多线程、异步和协程详解
最近学习python并发,于是对多进程、多线程、异步和协程做了个总结。一、多线程多线程就是允许一个进程内存在多个控制权,以便让多个函数同时处于激活状态,从而让多个函数的操作同时运行。即使是单CPU的计算机,也可以通过不停地在不同线程的指令间切换,从而造成多线程同时运行的效果。多线程相当于一个并发(concunrrency)系统。并发系统一般同时执行多个任务。如果多个任务可以
2016-12-12 23:14:09 6211
转载 mongodb使用简单总结
1.mongodb特性1)mongo是一个面向文档的数据库,它集合了nosql和sql数据库两方面的特性。2)所有实体都是在首次使用时创建。3)没有严格的事务特性,但是它保证任何一次数据变更都是原子性的。4)也没有固定的数据模型5)mongo以javascript作为命令行执行引擎,所以利用shell进行复杂的计算和查询时会相当的慢。6)mongo本身支持集群和数据分片
2016-12-10 16:34:11 333
原创 Python时间格式
关于Python时间格式总结:1、时间戳import timeprint time.time()直接输出时间戳:1481357223利用time时间模块转换,格式化时间戳为本地的时间time.localtime(time.time())time.struct_time(tm_year=2016, tm_mon=12, tm_mday=10, tm_hour=16
2016-12-10 16:06:37 1589
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人