Chercheer-CSDN博客

原创 linux与hadoop常用命令梳理

我们使用数据库进行分析和建模，最直接的是使用本地保存好的文件直接读取进行统计等操作，实际工作中一般使用存储数据的数据平台进行操作，比较方便的是用可视化平台比如大数据交互平台hue，没当没有可视化平台的时候就需要直接在linux环境中进行操作。这里就归纳一下平时比较实用的命令语句。linux常用命令查看目前 Linux 系统上的磁盘使用情况统计df -h #-h 显示大小单位查看当前目录下各个文件及目录占用空间大小du -sh *修改文件或路径权限chmod 777 file

2021-02-20 14:19:34 529

原创机器学习可解释性方法Lime小结

机器学习相对简单线性模型有更优异的效果，但是其复杂的原理让模型并不容易理解和解释。可解释的方法有很多众，大概可以分为全局解释和局部解释，以及与模型适配和与模型无关的方法，本文对一种局部的、与模型无关的方法Lime进行介绍，尝试从原理并结合python的Lime工具包进行梳理。原理介绍Lime（Local Interpretable Model-Agnostic Explanations）是使用训练的局部代理模型来对单个样本进行解释。假设对于需要解释的黑盒模型，取关注的实例样本，在其附近进行扰动生成新

2020-08-24 16:57:45 5755 3

原创二代征信报告解读及信贷风控中的应用

今年一月中旬起，征信中心面向社会公众和金融机构提供二代格式信用报告查询服务，相比一代征信系统，二代征信系统又做了哪些升级？提供的信用报告又有哪些变化？相对于一代征信报告，大家更加急切地想知道二代征信报告内容，因此这里对一代和二代征信进行详细的对比解读。二代征信报告解读征信系统与一代征信系统相比，二代征信系统在信息采集、产品加工、技术架构和安全防护方面，均进行了优化改进。一是优化丰富信息内容，更为全面、准确地反映信息主体信用状况；二是优化信用报告展示形式和生成机制，提升信用报告的易读性...

2020-08-04 22:48:29 7087

原创特征重要性与shap值

在模型的训练过程中，往往会需求更加优异的模型性能指标如准确率、召回等，但在实际生产中，随着模型上线使用产生衰减，又需要快速定位问题进行修复，因此了解模型如何运作、哪些特征起到了关键作用有着重要意义。同时，可解释的模型能够让业务方也就是模型使用者，能够更加信任和熟悉模型的决策过程。尤其在风控领域，基于金融机构的监管层要求以及信贷业务的稳健发展方面，都需要在信贷业务流程中部署的风控模型具有良好的解释性。机器学习效果往往会优于传统的评分卡模型，相对于可以对每个入模变量赋予权重的逻辑回归方法来说，机器学习的训练

2020-07-23 19:42:30 11073 4

神经网络与深度学习

空空如也