猫新人-CSDN博客

原创智能营销模型-Uplift Model详解及Python使用

1. 背景概览在营销场景中，通过给用户营销动作，从而带来用户动支率的提升，如在给用户发送广告邮件或优惠券等。但营销客户可分为4类，分别为sure thing自然转化、persuadables营销敏感、lost causes无动于衷和sleeping dogs营销反作用，如下图所示（参考链接）。而除营销敏感以外人群进行营销都会增加运营成本，因此挖掘出对营销敏感的人群是非常有必要的。2. 方法介绍2.1 T-Learner论文地址：<> T-Learner （Two Model）是将对照

2022-02-12 14:11:39 6079 4

原创 Logistics Regression原理-Python实现

逻辑回归（Logistics Regression）是机器学习中常见的分类算法，算法以较高的稳定性和可解释性常在金融场景下使用。通过Sigmoid函数将线性回归（Linear Regression）值映射，从而实现二分类。线性回归函数：z=θ0+θ1x1+θ2x2+θ3x3+⋯+θixi=θTxz = \theta _{0}+\theta _{1}x_{1}+\theta _{2}x...

2020-04-12 22:04:33 708

原创从模型到风控评分卡

评分卡模型是信用风险评估中普遍使用的模型，如下图所示。但由于WOE分箱、特征筛选和模型训练等步骤建立的模型，只能输出违约概率。下述将介绍LR模型转换为评分卡的过程并以Python实现。1 评分卡评分卡是分数对模型输出几率（Odds）的线性表示，如几率（Odds）越高分数越低，公式如下：Score=A−Bln⁡(Odds)Score=A-B\ln\left ( Odds \righ...

2020-03-28 18:52:56 872

原创 Python源码保护

1 混淆改方法主要将函数、类名以及变量名等替换为其他符号，提高了阅读的难度，Python代码混淆网站。但该方法未改变程序的主体结构，实际效果并不是很好。具体如下图1所示：2 pycpython是先把源码py文件编译成pyc或者pyo，然后由python的虚拟机执行。最简单的加密方法是将编译后的pyc二进制文件发布，详情可以参考blog。但与其他语言一样编译后的产生的pyc依然可以通过反编译得...

2020-03-16 21:51:11 2796

原创 Python脚本后台运行

import timeimport datetimewhile True: time.sleep(1) print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))1 Linuxlinux nohup命令linux ps命令https://www.runoob.com/linux/linux-comm-ps...

2020-03-10 23:02:55 2210

原创 Python编码规范

PEP8地址： https://legacy.python.org/dev/peps/pep-0008/ PEP8是Python社区针对Python语言编订的代码风格指南。编码风格的统一，从而提高代码可读性，降低团队协作开发的成本。1 命名规范在PEP8中变量命名需有意义，避免无意义变量名，避免使用l（小写L）、I（大写i）和O（容易混淆）作为单字符变量。在对包、类、函数和全局变量...

2020-03-08 22:45:51 418

原创 Sklearn机器学习模型上线

机器学习模型部署，常因开发语言或环境的不同，导致系统或应用无法直接使用离线模型，如在模型训练使用Python，而应用使用Java等其他语言开发。而在此状况下，模型部署上线，通常采用Falsk API服务、PMML、MLflow和Mleap等方法。以下将分别介绍Flask API 和PMML模型上线的方法。1 Flask API服务 Flask 安装：pip install fla...

2020-02-17 11:37:48 2825 1

原创不平衡数据处理之SMOTE、Borderline SMOTE和ADASYN详解及Python使用

不平衡数据在金融风控、反欺诈、广告推荐和医疗诊断中普遍存在。通常而言，不平衡数据正负样本的比例差异极大，如在Kaggle竞赛中的桑坦德银行交易预测和IEEE-CIS欺诈检测数据。对模型而言，不均衡数据构建的模型会更愿意偏向于多类别样本的标签，实际应用价值较低，如下图所示，为在不均衡数据下模型预测的概率分布。不平衡数据的处理方法，常见方法有欠采样(under-sampling)和过采样(...

2020-01-15 22:49:58 50555 38

原创评分卡中WOE和IV详解 Python实现

信用评分卡模型是信用风险评估中普遍使用的模型，而在模型建立过程中，一般采用WOE(Weight Of Evidence 证据权重)对自变量进行编码，并根据IV(Information Value 信息量)作为变量筛选指标。1 WOE WOE(Weight Of Evidence 证据权重)是一种对自变量编码的方法，需注意的是在WOE编码前需对数据进行分箱（分组或离散化）操作。具体而言，...

2020-01-05 19:45:35 6931 2

原创 Spark3 Mac单机环境搭建

1 相关准备若已配置JDK和Scala，可跳过此步骤。1.1 JDK下载 Spark需要JDK版本8以上，以下以JDK8安装为例JDK下载地址：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 下载完成后，点击安装包，一路继续完成安装。在完成后，在终端输入ja...

2019-12-29 21:11:20 978

原创 PSI群体稳定指数-Python实现

PSI群体稳定指数-Python实现PSI群体稳定指数Python 实现PSI群体稳定指数群体稳定性指标(population stability index PSI)用于衡量测试样本和建模样本分数间数据分布差异性，是模型稳定性的常见指标。公式如下所示：其中，bins是分箱数量，Actual是实际占比，Expected是预期占比。PSI小于0.1模型稳定性较高，0.1至0.2之间稳定性一般...

2019-12-26 22:34:32 8591 2

u010654299的博客