- 博客(11)
- 资源 (1)
- 收藏
- 关注
原创 智能营销模型-Uplift Model详解及Python使用
1. 背景概览在营销场景中,通过给用户营销动作,从而带来用户动支率的提升,如在给用户发送广告邮件或优惠券等。但营销客户可分为4类,分别为sure thing自然转化、persuadables营销敏感、lost causes无动于衷和sleeping dogs营销反作用,如下图所示(参考链接)。而除营销敏感以外人群进行营销都会增加运营成本,因此挖掘出对营销敏感的人群是非常有必要的。2. 方法介绍2.1 T-Learner论文地址:<> T-Learner (Two Model)是将对照
2022-02-12 14:11:39 6079 4
原创 Logistics Regression原理-Python实现
逻辑回归(Logistics Regression)是机器学习中常见的分类算法,算法以较高的稳定性和可解释性常在金融场景下使用。通过Sigmoid函数将线性回归(Linear Regression)值映射,从而实现二分类。 线性回归函数:z=θ0+θ1x1+θ2x2+θ3x3+⋯+θixi=θTxz = \theta _{0}+\theta _{1}x_{1}+\theta _{2}x...
2020-04-12 22:04:33 708
原创 从模型到风控评分卡
评分卡模型是信用风险评估中普遍使用的模型,如下图所示。但由于WOE分箱、特征筛选和模型训练等步骤建立的模型,只能输出违约概率。下述将介绍LR模型转换为评分卡的过程并以Python实现。1 评分卡 评分卡是分数对模型输出几率(Odds)的线性表示,如几率(Odds)越高分数越低,公式如下:Score=A−Bln(Odds)Score=A-B\ln\left ( Odds \righ...
2020-03-28 18:52:56 872
原创 Python源码保护
1 混淆改方法主要将函数、类名以及变量名等替换为其他符号,提高了阅读的难度,Python代码混淆网站。但该方法未改变程序的主体结构,实际效果并不是很好。具体如下图1所示:2 pycpython是先把源码py文件编译成pyc或者pyo,然后由python的虚拟机执行。最简单的加密方法是将编译后的pyc二进制文件发布,详情可以参考blog。但与其他语言一样编译后的产生的pyc依然可以通过反编译得...
2020-03-16 21:51:11 2796
原创 Python脚本后台运行
import timeimport datetimewhile True: time.sleep(1) print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))1 Linuxlinux nohup命令linux ps命令https://www.runoob.com/linux/linux-comm-ps...
2020-03-10 23:02:55 2210
原创 Python编码规范
PEP8地址: https://legacy.python.org/dev/peps/pep-0008/ PEP8是Python社区针对Python语言编订的代码风格指南。编码风格的统一,从而提高代码可读性,降低团队协作开发的成本。1 命名规范 在PEP8中变量命名需有意义,避免无意义变量名,避免使用l(小写L)、I(大写i)和O(容易混淆)作为单字符变量。在对包、类、函数和全局变量...
2020-03-08 22:45:51 418
原创 Sklearn机器学习模型上线
机器学习模型部署,常因开发语言或环境的不同,导致系统或应用无法直接使用离线模型,如在模型训练使用Python,而应用使用Java等其他语言开发。而在此状况下,模型部署上线,通常采用Falsk API服务、PMML、MLflow和Mleap等方法。以下将分别介绍Flask API 和PMML模型上线的方法。1 Flask API服务 Flask 安装:pip install fla...
2020-02-17 11:37:48 2825 1
原创 不平衡数据处理之SMOTE、Borderline SMOTE和ADASYN详解及Python使用
不平衡数据在金融风控、反欺诈、广告推荐和医疗诊断中普遍存在。通常而言,不平衡数据正负样本的比例差异极大,如在Kaggle竞赛中的桑坦德银行交易预测和IEEE-CIS欺诈检测数据。对模型而言,不均衡数据构建的模型会更愿意偏向于多类别样本的标签,实际应用价值较低,如下图所示,为在不均衡数据下模型预测的概率分布。 不平衡数据的处理方法,常见方法有欠采样(under-sampling)和过采样(...
2020-01-15 22:49:58 50555 38
原创 评分卡中WOE和IV详解 Python实现
信用评分卡模型是信用风险评估中普遍使用的模型,而在模型建立过程中,一般采用WOE(Weight Of Evidence 证据权重)对自变量进行编码,并根据IV(Information Value 信息量)作为变量筛选指标。1 WOE WOE(Weight Of Evidence 证据权重)是一种对自变量编码的方法,需注意的是在WOE编码前需对数据进行分箱(分组或离散化)操作。具体而言,...
2020-01-05 19:45:35 6931 2
原创 Spark3 Mac单机环境搭建
1 相关准备 若已配置JDK和Scala,可跳过此步骤。1.1 JDK下载 Spark需要JDK版本8以上,以下以JDK8安装为例JDK下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 下载完成后,点击安装包,一路继续完成安装。在完成后,在终端输入ja...
2019-12-29 21:11:20 978
原创 PSI群体稳定指数-Python实现
PSI群体稳定指数-Python实现PSI群体稳定指数Python 实现PSI群体稳定指数群体稳定性指标(population stability index PSI)用于衡量测试样本和建模样本分数间数据分布差异性,是模型稳定性的常见指标。公式如下所示:其中,bins是分箱数量,Actual是实际占比,Expected是预期占比。PSI小于0.1模型稳定性较高,0.1至0.2之间稳定性一般...
2019-12-26 22:34:32 8591 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人