Python风控模型与数据分析-CSDN博客

原创 BOSS直聘上java岗位的薪资分析

数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等文末获取数据集。

2024-02-29 11:22:12 698

原创北上广深数据分析岗位的薪资对比

数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等文末获取数据集。

2024-02-26 10:10:31 288

原创 Python银行授信响应模型实战

在金融信贷领域中，授信、定价等产品信息会直接影响客户是否用信，此外客户自身的需求程度、竞品授信定价信息、自身经济能力、家庭环境等等因素都会影响用信行为。对于放贷机构而言，在授信额度/定价允许的范围内（如额度越高、风险也会越高），希望能提高整体用信率、从而增加业务规模，那么如果能提前预测出用户的用信概率，就可以用于指导运营活动、授信定价策略，促进业务增长。

2024-02-18 10:04:25 665

原创 Python银行信贷风控实战2

之前写过一篇银行信贷风控实战了，但是包括之前其它信贷风控的实战内容在内，实际上和工作中完整项目之间还存在很多差距，这篇银行信贷风控实战2所使用数据更接近工作中的真实数据，需要自行从原始借贷还款记录中提取逾期标签用于分析建模、而不是简简单单地直接给你处理好的Y标签（实际工作时需要自行处理的）。所以重点推荐本文原始数据、以及逾期标签的打标方法。

2024-02-06 10:00:00 754

原创 2024年美国大学生数学建模竞赛（美赛）C题代码

代码只写了核心部分、包括数据预处理和建模等，仅供参考获取方法见文末，部分截图如下。

2024-02-03 17:53:52 226

训练模型来预测球员在比赛的特定时间表现得更好，以及他们的表现有多好；球员表现是否好依赖能否得分，一场下来要么play1得分、要么play2得分，所以可以落到二分类问题上（每一局是否得分），同时模型要求能够预测球员每个时点的表现，那么在变量列表中就应该包含时间特征/场次特征（如第三盘、第一小局），另外球员的个人水平和状态具有惯性、所以也需要统计之前场次的表现/得分特征（如第三盘开始时，球员1已经胜利的局数），题目提供的数据中还包括发球速度、发球方向、发球深度、返回深度等特征，以及是否发球者的0/1特征。

2024-02-02 22:59:58 621

原创 2024年美国大学生数学建模竞赛（美赛）思路及代码

美国大学生数学建模竞赛(MCM/ICM)由美国数学及其应用联合会主办，是唯一的国际性数学建模竞赛，也是世界范围内最具影响力的数学建模竞赛。赛题内容涉及经济、管理、环境、资源、生态、医学、安全、等众多领域。

2024-01-31 10:38:53 803 2

原创最简数据挖掘|房租价格预测

数据源自最简数据挖掘系列，内容包括位置、出租方式、卧室/客厅/卫生间数量、楼层、面积、装修情况、户型朝向、小区房源情况等等信息，其中包括位置、区、小区名、Label等在内的多个字段都已经过编码/脱敏处理。数据获取见文末。

2024-01-29 10:00:00 349

原创最简数据挖掘|垃圾邮件分类

数据源自最简数据挖掘系列，Email英文的邮件内容，其中Label列ham为正常邮件、spam为垃圾邮件。数据获取见文末统计邮件是否为垃圾邮件的标签分布如下，可以看到4458样本中有592条垃圾邮件。

2024-01-24 10:00:00 401

原创 seaborn可视化示例详解

Seaborn是一个基于Python的数据可视化库，Seaborn提供了许多用于绘制统计图形的高级界面，在Matplotlib的基础上，Seaborn进行了更高级的封装，使得作图更加方便快捷。即便是没有什么基础的人，也能通过极简的代码，做出具有分析价值而又十分专业的图形。虽然没有pyecharts的动态、交互功能，但是胜在便捷、代码量少、必须的配置也少，可以快速出图。本文使用房价数据、房租数据、iris数据集进行展示，数据获取见文末添加分类的散点图，仅需要添加一个hue参数指定分组列名即可设置样式。

2024-01-22 09:58:04 448

原创 2024年“华数杯”国际大学生数学建模竞赛B题思路

首先得获取数据，中国的宏观数据相对容易（包括电力、经济、人口、教育、基础建设、研发投入、科研水平等等方面，获取数据方式见下面），拿到数据后研究指标之间的关系，相关性分析和线性回归（宏观指标单位不统一、可以考虑平滑处理），时间序列的预测可以用趋势外推+多元线性回归或者RNN模型等。成本和效益，以及地理和照明条件的具体数据不好查，所以可行性研究可以结合定性+定量结合分析，数据方面论文可能有一些可以参考，这一问在参考其他数据基础上可以适当做一些数据假设来分析。请选择一个地区，并讨论在那里建造光伏发电厂的可行性。

2024-01-17 08:15:16 1160

原创最简数据挖掘|房价预测

数据源自最简数据挖掘系列，内容出售日期、卧室/浴室数量、楼层、生活面积、停车坪面积、地下室面积、建筑面积、修成年份、经纬度等等信息。数据获取见文末字段含义。

2024-01-15 10:00:00 544

原创 NLP｜LSTM+Attention文本分类

LSTM是一种特殊的循环神经网络（RNN），用于处理序列数据和时间序列数据的建模和预测。而在NLP和时间序列领域上Attention-注意力机制也早已有了大量应用，本文将介绍在LSTM基础上如何添加Attention来优化模型效果。

2024-01-10 21:41:44 509

原创 Python银行营销响应模型实战

在金融信贷领域的获客环节中，银行/金融机构往往通过电销的方式来邀请客户进行存款、购买金融产品、借贷等活动，而营销响应模型可以在营销活动数据基础上，通过学习是否成功营销和特征数据间的关系、能够精准识别未来其他客户的响应概率（如购买理财产品意愿），只针对高响应人员营销、从而极大提升营销人员工作效率。

2024-01-08 18:52:27 873

原创 BOSS直聘上算法岗位的薪资分析

数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等文末获取数据集。

2024-01-02 10:42:30 886

原创 2023年第三届中国高校大数据挑战赛B题思路

代码更新得看时间、可能会晚一些，也会在公众号更新任务 1:观察数据集“train_reads.txt”、“train_reference.txt”，针对这次合成任务，进行错误率(插入、删除、替换、断链)、拷贝数方面的分析。其中错误率定义为某个碱基发生错误的概率，需要对不同类型的错误率分别进行分析。拷贝数定义为原始序列复制的数量。对每种错误情况单独统计分析似乎有点麻烦，因为每种错误随机发生，不能直接统计字符个数差异、或者字符串遍历的字符差异；

2023-12-28 14:12:02 760

原创 2024上半年数学建模比赛汇总

（1）大数据统计分析方向涉及内容包含：数据的清洗、数据的预测、数据之间的。

2023-12-26 10:45:01 4457

原创 Pandas爬虫-只需要一行

还在为论文、大作业的数据获取而发愁吗，来试试Pandas爬虫、代码只需要一行，让爬取数据不再遥不可及。众所周知数据的获取极其重要，而Python爬虫既实用又听起来高大上，本文通过两个实战小例子来介绍Pandas爬取表格数据。

2023-12-25 17:13:55 1038

原创 BOSS直聘上数据分析岗位的薪资分析

昨天-2023年12月24日抽空爬取了一下BOSS直聘上base北京的数据分析岗位的相关数据，本文简单分析拿给大家做参考，该说不说、在现在的大环境下数据分析薪资还是高的呀。在PC端上打开BOSS直聘网页搜索数据分析，只会显示10页岗位（每页30条），所以我按照工作经验要求对应届生、 1年以内、 1-3年、 3-5年、 5-10年、 10年以上分别爬了10页数据，总共1800条。

2023-12-25 09:52:32 1044

原创 2024年第二届“华数杯”国际大学生数学建模竞赛思路及代码

比赛时间：2024.01.17 06:00 至 2024.01.21 09:00。

2023-12-21 20:24:11 1678

原创 2023第二届全国大学生数据分析大赛AB题代码

看大家需求量比较大，所以更新了一下A、B题的示例代码，部分截图如下。

2023-12-03 16:45:20 2189

原创 2023年第三届中国高校大数据挑战赛思路及代码

1、大数据统计分析方向涉及内容包含：数据的清洗、数据的预测、数据之间的关联分析、综合评价、分类与判别等2、文本或图象分析方向涉及内容包含：计算机视觉基础、特征匹配算法（常用的图像特征提取及匹配算法，如SIFT、SURF、FAST、BRIEF、ORB等）

2023-11-30 16:31:18 2197

原创 2023第二届全国大学生数据分析实践赛思路及代码

比赛时间 2023.12.16 09:00 至 2023.12.23 16:00。

2023-11-30 16:28:59 875

原创 2023第二届全国大学生数据分析大赛B题思路

2023第二届全国大学生数据分析大赛B题思路

2023-11-30 10:39:23 1002 7

原创 Python银行信贷风控建模实战（xgb+lgb）

银行风控数据来源某比赛网站（下图仅为部分字段），数据集中包含银行借贷订单的金额、利息、账期、担保等基本信息，还有历史授信情况，数据类型同样包含数值型、类别型、日期等变量，同时存在缺失问题，适合初学者入门练习

2023-11-28 09:51:44 926

原创 2023APMCM亚太地区大学生数学建模竞赛C题思路

题目关键在于数据获取，注意到问题2-5分析建模都需要有一定的数据基础，而问题1 也提到建模分析，所以还是要获取一定的数据（如过去10年中国普通汽车/新能源电动汽车产量、销售量、销售金额等，以及相关分析因素数据包括但不限于经济发展数据、人口数据、空气环境等数据以及政策数据

2023-11-23 11:21:40 409

原创异常检测之自编码器AutoEncoder

自编码器（Autoencoder）是一种神经网络结构，由编码器（Encoder）和解码器（Decoder）两部分组成。编码器将输入数据映射到低维编码空间，而解码器将编码空间的表示映射回原始输入数据的空间，训练目标是最小化重构数据与原始输入数据之间的差异。.本文使用AutoEncoder实战异常检测，分别测试自行构建AutoEncoder和调用pyod包进行对比评估。

2023-11-23 10:00:00 691

原创 Pandas表格样式，你有table-style吗

Pandas提供了style功能，可以直接实现excel里的高亮、色阶、数据条、单元格格式设置、字体设置等等功能，简单场景下不需要把数据导出再调整样式了，本文逐条盘点一下

2023-11-20 08:05:35 256

原创 Python风控实战催收评分卡（xgb）

在风控环节中，传统观念A卡为主、B卡C卡为辅，但是在市场逐步饱和、政策利率要求越来越低的背景下，B卡和C卡也越来越重要。本文以简易贷后数据实战催收评分模型，预测在用户逾期后、未来能否催回。

2023-11-16 09:45:00 291

原创 2023第二届全国大学生数据分析大赛A题思路

首先看整个题目和问题，最终目的是通过用户的交易行为、交易金额、交易频率、交易时间等信息，分析用户的行为，可促进二次营销，精准营销，促活；题目中要求建模来定位给那些用户发放优惠券，而发优惠券正是促销手段的一种。

2023-11-05 10:20:05 2006 4

原创 DataCastle企业风险算法赛实战（进阶难度）

DataCastle的华录杯算法赛实战，本文数据处理较为复杂、特征挖掘内容较多，适合统计学/机器学习相关专业、或者有一定模型算法/数据挖掘经验的同学，经验较浅的也可以作为进阶项目实战提升。

2023-11-03 10:00:00 249 1

原创 Python租房价格分析及预测（xgb+catboost+rf）

早年爬取过我爱我家上北京的部分租房信息，现在重新拿来分析和建模，以往文章大多偏二分类、这次来个数据分析+回归模型的文章。

2023-10-30 10:00:00 669

原创 2023MathorCup高校数学建模挑战赛B题建模思路

在预测问题上，需要考虑的第一个重点是对于每种商家、仓库、商品组合的销量数据，是否需要单独构建一个模型，本题数据中商家、仓库、商品组合种类繁多，又给了商家、仓库、商品的属性特征，所以可以考虑先做一个整的模型看看效果，需要优化再拆分建模（也可以根据分类后的组合进行分别建模）。预测往往是智能供应链的决策基础，它可以让管理者提前预知各地的需求，从而将库存提前放在靠近需求的仓库中，此时的预测任务为：根据历史一段时间的需求量，预测各仓库中各商品未来需求，“预测维度”即为不同商家在各仓库中存放的各种商品每天的数量。

2023-10-27 21:04:41 596

原创异常检测之PCA实战

PCA是一个经典的线性降维算法，而降维算法可以先进行降维、再重构数据，那些难以重构的样本就是和整体分布差异较大的样本点，我们通过计算原始数据和重构数据的差异来识别出难以重构的样本，从而达到异常检测的目的。本文结合信用卡的退款欺诈行为数据，来详解PCA异常检测实战过程

2023-10-19 09:30:00 730

原创 kaggle风控建模实战（XGB+LGB+RF+LR）

本文使用kaggle风控数据集，在数据预处理、特征筛选的基础上，分别使用xgb、lgb、rf、lr构建二分类模型并使用ks、auc指标进行评估比较，提供集成代码及数据集，欢迎交流

2023-10-09 10:00:00 644

原创 Pandas非常规但实用的骚操作2

方法可以对数据进行重塑操作，将宽格式的数据转换为长格式，常用于数据处理和分析。方法可以对指定的列进行聚合操作，将多个值合并为一个值，常用于数据处理和分析。方法可以按照指定的时间间隔对数据进行重采样，常用于时间序列数据的处理。方法可以对整个DataFrame进行映射。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。

2023-10-04 09:30:00 83

空空如也

空空如也