自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

机器学习、深度学习、文本分类、异常检测、风控等知识的积累和分享

机器学习、深度学习、文本分类、异常检测、风控等知识的积累和分享

  • 博客(62)
  • 收藏
  • 关注

原创 BOSS直聘上java岗位的薪资分析

数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等 文末获取数据集。

2024-02-29 11:22:12 698

原创 北上广深数据分析岗位的薪资对比

数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等 文末获取数据集。

2024-02-26 10:10:31 288

原创 Python银行授信响应模型实战

在金融信贷领域中,授信、定价等产品信息会直接影响客户是否用信,此外客户自身的需求程度、竞品授信定价信息、自身经济能力、家庭环境等等因素都会影响用信行为。对于放贷机构而言,在授信额度/定价允许的范围内(如额度越高、风险也会越高),希望能提高整体用信率、从而增加业务规模,那么如果能提前预测出用户的用信概率,就可以用于指导运营活动、授信定价策略,促进业务增长。

2024-02-18 10:04:25 665

原创 Python银行信贷风控实战2

之前写过一篇银行信贷风控实战了,但是包括之前其它信贷风控的实战内容在内,实际上和工作中完整项目之间还存在很多差距,这篇银行信贷风控实战2所使用数据更接近工作中的真实数据,需要自行从原始借贷还款记录中提取逾期标签用于分析建模、而不是简简单单地直接给你处理好的Y标签(实际工作时需要自行处理的)。所以重点推荐本文原始数据、以及逾期标签的打标方法。

2024-02-06 10:00:00 754

原创 2024年美国大学生数学建模竞赛(美赛)C题代码

代码只写了核心部分、包括数据预处理和建模等,仅供参考获取方法见文末,部分截图如下。

2024-02-03 17:53:52 226

原创 2024年美国大学生数学建模竞赛(美赛)C题思路

训练模型来预测球员在比赛的特定时间表现得更好,以及他们的表现有多好;球员表现是否好依赖能否得分,一场下来要么play1得分、要么play2得分,所以可以落到二分类问题上(每一局是否得分),同时模型要求能够预测球员每个时点的表现,那么在变量列表中就应该包含时间特征/场次特征(如第三盘、第一小局),另外球员的个人水平和状态具有惯性、所以也需要统计之前场次的表现/得分特征(如第三盘开始时,球员1已经胜利的局数),题目提供的数据中还包括发球速度、发球方向、发球深度、返回深度等特征,以及是否发球者的0/1特征。

2024-02-02 22:59:58 621

原创 2024年美国大学生数学建模竞赛(美赛)思路及代码

美国大学生数学建模竞赛(MCM/ICM)由美国数学及其应用联合会主办,是唯一的国际性数学建模竞赛,也是世界范围内最具影响力的数学建模竞赛。赛题内容涉及经济、管理、环境、资源、生态、医学、安全、等众多领域。

2024-01-31 10:38:53 803 2

原创 最简数据挖掘|房租价格预测

数据源自最简数据挖掘系列,内容包括位置、出租方式、卧室/客厅/卫生间数量、楼层、面积、装修情况、户型朝向、小区房源情况等等信息,其中包括位置、区、小区名、Label等在内的多个字段都已经过编码/脱敏处理。数据获取见文末。

2024-01-29 10:00:00 349

原创 最简数据挖掘|垃圾邮件分类

数据源自最简数据挖掘系列,Email英文的邮件内容,其中Label列ham为正常邮件、spam为垃圾邮件。数据获取见文末统计邮件是否为垃圾邮件的标签分布如下,可以看到4458样本中有592条垃圾邮件。

2024-01-24 10:00:00 401

原创 seaborn可视化示例详解

Seaborn是一个基于Python的数据可视化库,Seaborn提供了许多用于绘制统计图形的高级界面,在Matplotlib的基础上,Seaborn进行了更高级的封装,使得作图更加方便快捷。即便是没有什么基础的人,也能通过极简的代码,做出具有分析价值而又十分专业的图形。虽然没有pyecharts的动态、交互功能,但是胜在便捷、代码量少、必须的配置也少,可以快速出图。本文使用房价数据、房租数据、iris数据集进行展示,数据获取见文末添加分类的散点图,仅需要添加一个hue参数指定分组列名即可设置样式。

2024-01-22 09:58:04 448

原创 2024年“华数杯”国际大学生数学建模竞赛B题思路

首先得获取数据,中国的宏观数据相对容易(包括电力、经济、人口、教育、基础建设、研发投入、科研水平等等方面,获取数据方式见下面),拿到数据后研究指标之间的关系,相关性分析和线性回归(宏观指标单位不统一、可以考虑平滑处理),时间序列的预测可以用趋势外推+多元线性回归或者RNN模型等。成本和效益,以及地理和照明条件的具体数据不好查,所以可行性研究可以结合定性+定量结合分析,数据方面论文可能有一些可以参考,这一问在参考其他数据基础上可以适当做一些数据假设来分析。请选择一个地区,并讨论在那里建造光伏发电厂的可行性。

2024-01-17 08:15:16 1160

原创 最简数据挖掘|房价预测

数据源自最简数据挖掘系列,内容出售日期、卧室/浴室数量、楼层、生活面积、停车坪面积、地下室面积、建筑面积、修成年份、经纬度等等信息。数据获取见文末字段含义。

2024-01-15 10:00:00 544

原创 NLP|LSTM+Attention文本分类

LSTM是一种特殊的循环神经网络(RNN),用于处理序列数据和时间序列数据的建模和预测。而在NLP和时间序列领域上Attention-注意力机制也早已有了大量应用,本文将介绍在LSTM基础上如何添加Attention来优化模型效果。

2024-01-10 21:41:44 509

原创 Python银行营销响应模型实战

在金融信贷领域的获客环节中,银行/金融机构往往通过电销的方式来邀请客户进行存款、购买金融产品、借贷等活动,而营销响应模型可以在营销活动数据基础上,通过学习是否成功营销和特征数据间的关系、能够精准识别未来其他客户的响应概率(如购买理财产品意愿),只针对高响应人员营销、从而极大提升营销人员工作效率。

2024-01-08 18:52:27 873

原创 BOSS直聘上算法岗位的薪资分析

数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等 文末获取数据集。

2024-01-02 10:42:30 886

原创 2023年第三届中国高校大数据挑战赛B题思路

代码更新得看时间、可能会晚一些,也会在公众号更新任务 1:观察数据集“train_reads.txt”、“train_reference.txt”,针对这次合成 任务,进行错误率(插入、删除、替换、断链)、拷贝数方面的分析。其中错误 率定义为某个碱基发生错误的概率,需要对不同类型的错误率分别进行分析。拷 贝数定义为原始序列复制的数量。对每种错误情况单独统计分析似乎有点麻烦,因为每种错误随机发生,不能直接统计字符个数差异、或者字符串遍历的字符差异;

2023-12-28 14:12:02 760

原创 2024上半年数学建模比赛汇总

(1)大数据统计分析方向涉及内容包含:数据的清洗、数据的预测、数据之间的。

2023-12-26 10:45:01 4457

原创 Pandas爬虫-只需要一行

还在为论文、大作业的数据获取而发愁吗,来试试Pandas爬虫、代码只需要一行,让爬取数据不再遥不可及。众所周知数据的获取极其重要,而Python爬虫既实用又听起来高大上,本文通过两个实战小例子来介绍Pandas爬取表格数据。

2023-12-25 17:13:55 1038

原创 BOSS直聘上数据分析岗位的薪资分析

昨天-2023年12月24日抽空爬取了一下BOSS直聘上base北京的数据分析岗位的相关数据,本文简单分析拿给大家做参考,该说不说、在现在的大环境下数据分析薪资还是高的呀。 在PC端上打开BOSS直聘网页搜索数据分析,只会显示10页岗位(每页30条),所以我按照工作经验要求对应届生、 1年以内、 1-3年、 3-5年、 5-10年、 10年以上分别爬了10页数据,总共1800条。

2023-12-25 09:52:32 1044

原创 2024年第二届“华数杯”国际大学生数学建模竞赛思路及代码

比赛时间:2024.01.17 06:00 至 2024.01.21 09:00。

2023-12-21 20:24:11 1678

原创 2023第二届全国大学生数据分析大赛AB题代码

看大家需求量比较大,所以更新了一下A、B题的示例代码,部分截图如下。

2023-12-03 16:45:20 2189

原创 2023年第三届中国高校大数据挑战赛思路及代码

1、大数据统计分析方向涉及内容包含:数据的清洗、数据的预测、数据之间的关联分析、综合评价、分类与判别等2、文本或图象分析方向涉及内容包含:计算机视觉基础、特征匹配算法(常用的图像特征提取及匹配算法,如SIFT、SURF、FAST、BRIEF、ORB等)

2023-11-30 16:31:18 2197

原创 2023第二届全国大学生数据分析实践赛思路及代码

比赛时间 2023.12.16 09:00 至 2023.12.23 16:00。

2023-11-30 16:28:59 875

原创 2023第二届全国大学生数据分析大赛B题思路

2023第二届全国大学生数据分析大赛B题思路

2023-11-30 10:39:23 1002 7

原创 Python银行信贷风控建模实战(xgb+lgb)

银行风控数据来源某比赛网站(下图仅为部分字段),数据集中包含银行借贷订单的金额、利息、账期、担保等基本信息,还有历史授信情况,数据类型同样包含数值型、类别型、日期等变量,同时存在缺失问题,适合初学者入门练习

2023-11-28 09:51:44 926

原创 2023APMCM亚太地区大学生数学建模竞赛C题思路

题目关键在于数据获取,注意到问题2-5分析建模都需要有一定的数据基础,而问题1 也提到建模分析,所以还是要获取一定的数据(如过去10年中国普通汽车/新能源电动汽车产量、销售量、销售金额等,以及相关分析因素数据包括但不限于经济发展数据、人口数据、空气环境等数据以及政策数据

2023-11-23 11:21:40 409

原创 异常检测之自编码器AutoEncoder

自编码器(Autoencoder)是一种神经网络结构,由编码器(Encoder)和解码器(Decoder)两部分组成。编码器将输入数据映射到低维编码空间,而解码器将编码空间的表示映射回原始输入数据的空间,训练目标是最小化重构数据与原始输入数据之间的差异。.本文使用AutoEncoder实战异常检测,分别测试自行构建AutoEncoder和调用pyod包进行对比评估。

2023-11-23 10:00:00 691

原创 Pandas表格样式,你有table-style吗

Pandas提供了style功能,可以直接实现excel里的高亮、色阶、数据条、单元格格式设置、字体设置等等功能,简单场景下不需要把数据导出再调整样式了,本文逐条盘点一下

2023-11-20 08:05:35 256

原创 Python风控实战催收评分卡(xgb)

在风控环节中,传统观念A卡为主、B卡C卡为辅,但是在市场逐步饱和、政策利率要求越来越低的背景下,B卡和C卡也越来越重要。本文以简易贷后数据实战催收评分模型,预测在用户逾期后、未来能否催回。

2023-11-16 09:45:00 291

原创 2023第二届全国大学生数据分析大赛A题思路

首先看整个题目和问题,最终目的是通过用户的交易行为、交易金额、 交易频率、交易时间等信息,分析用户的行为,可促进二次营销,精准营销,促活;题目中要求建模来定位给那些用户发放优惠券,而发优惠券正是促销手段的一种。

2023-11-05 10:20:05 2006 4

原创 DataCastle企业风险算法赛实战(进阶难度)

DataCastle的华录杯算法赛实战,本文数据处理较为复杂、特征挖掘内容较多,适合统计学/机器学习相关专业、或者有一定模型算法/数据挖掘经验的同学,经验较浅的也可以作为进阶项目实战提升。

2023-11-03 10:00:00 249 1

原创 Python租房价格分析及预测(xgb+catboost+rf)

早年爬取过我爱我家上北京的部分租房信息,现在重新拿来分析和建模,以往文章大多偏二分类、这次来个数据分析+回归模型的文章。

2023-10-30 10:00:00 669

原创 2023MathorCup高校数学建模挑战赛B题建模思路

在预测问题上,需要考虑的第一个重点是对于每种商家、仓库、商品组合的销量数据,是否需要单独构建一个模型,本题数据中商家、仓库、商品组合种类繁多,又给了商家、仓库、商品的属性特征,所以可以考虑先做一个整的模型看看效果,需要优化再拆分建模(也可以根据分类后的组合进行分别建模)。预测往往是智能供应链的决策基础,它可以让管理者提前预知各地的需求,从而将库存提前放在靠近需求的仓库中,此时的预测任务为:根据历史一段时间的需求量,预测各仓库中各商品未来需求,“预测维度”即为不同商家在各仓库中存放的各种商品每天的数量。

2023-10-27 21:04:41 596

原创 异常检测之PCA实战

PCA是一个经典的线性降维算法,而降维算法可以先进行降维、再重构数据,那些难以重构的样本就是和整体分布差异较大的样本点,我们通过计算原始数据和重构数据的差异来识别出难以重构的样本,从而达到异常检测的目的。本文结合信用卡的退款欺诈行为数据,来详解PCA异常检测实战过程

2023-10-19 09:30:00 730

原创 kaggle风控建模实战(XGB+LGB+RF+LR)

本文使用kaggle风控数据集,在数据预处理、特征筛选的基础上,分别使用xgb、lgb、rf、lr构建二分类模型并使用ks、auc指标进行评估比较,提供集成代码及数据集,欢迎交流

2023-10-09 10:00:00 644

原创 Pandas非常规但实用的骚操作2

方法可以对数据进行重塑操作,将宽格式的数据转换为长格式,常用于数据处理和分析。方法可以对指定的列进行聚合操作,将多个值合并为一个值,常用于数据处理和分析。方法可以按照指定的时间间隔对数据进行重采样,常用于时间序列数据的处理。方法可以对整个DataFrame进行映射。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。

2023-10-04 09:30:00 83

原创 Pandas非常规但实用的骚操作1

在 Pandas 中,可以使用 apply 方法将自定义函数应用到 Series 或 DataFrame 的每个元素上# 创建一个 DataFrameprint(df)# 定义一个自定义函数,计算平方值并返回新列名# 使用 apply 进行自定义函数应用,将函数应用到 A 列上,并将结果存储在新列中print(df) # 输出 DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 0: [1, 4, 9], 'squared': [1, 4, 9]})

2023-10-01 09:30:00 63

原创 2023第二届全国大学生数据分析大赛思路及代码

赛题出来以后第一时间在CSDN更新分享分析建模思路及代码,建议先收藏哦

2023-09-29 15:11:23 1741 6

原创 文本分类-Word2vec+LSTM

LSTM是专门用于处理序列数据(文本序列、时间序列)等的RNN模型之一,本文分别按照embedding+LSTM、word2vec预训练模型+双向LSTM两种方式进行文本分类的代码实战,附带LSTM层参数详解,尽可能给读者带来多的收获

2023-09-26 09:00:00 702 2

原创 异常检测之IF孤立森林实战

异常检测中,算法选择只是其中一环,前期最重要的是依据业务场景、业务目标来进行目标相关特征挖掘(如应用于信贷/交易欺诈,则需要着重挖掘欺诈特征)、把握数据分布、特征筛选、再依据特征分布情况选择合适的算法,另外部分业务场景还得考虑解释性;而异常检测本身是无监督算法,落地更适用于监督模型的辅助、而非独立决策。本系列会尽可能全面的覆盖到这些要点,也欢迎读者们交流讨论。

2023-09-12 15:45:00 376

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除