自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Cherzhoucheer的博客

道阻且长

  • 博客(62)
  • 资源 (1)
  • 收藏
  • 关注

原创 linux与hadoop常用命令梳理

我们使用数据库进行分析和建模,最直接的是使用本地保存好的文件直接读取进行统计等操作,实际工作中一般使用存储数据的数据平台进行操作,比较方便的是用可视化平台比如大数据交互平台hue,没当没有可视化平台的时候就需要直接在linux环境中进行操作。这里就归纳一下平时比较实用的命令语句。linux常用命令查看目前 Linux 系统上的磁盘使用情况统计df -h #-h 显示大小单位查看当前目录下各个文件及目录占用空间大小du -sh *修改文件或路径权限chmod 777 file

2021-02-20 14:19:34 529

原创 机器学习可解释性方法Lime小结

机器学习相对简单线性模型有更优异的效果,但是其复杂的原理让模型并不容易理解和解释。可解释的方法有很多众,大概可以分为全局解释和局部解释,以及与模型适配和与模型无关的方法,本文对一种局部的、与模型无关的方法Lime进行介绍,尝试从原理并结合python的Lime工具包进行梳理。原理介绍Lime(Local Interpretable Model-Agnostic Explanations)是使用训练的局部代理模型来对单个样本进行解释。假设对于需要解释的黑盒模型,取关注的实例样本,在其附近进行扰动生成新

2020-08-24 16:57:45 5755 3

原创 二代征信报告解读及信贷风控中的应用

今年一月中旬起,征信中心面向社会公众和金融机构提供二代格式信用报告查询服务,相比一代征信系统,二代征信系统又做了哪些升级?提供的信用报告又有哪些变化?相对于一代征信报告,大家更加急切地想知道二代征信报告内容,因此这里对一代和二代征信进行详细的对比解读。二代征信报告解读征信系统与一代征信系统相比,二代征信系统在信息采集、产品加工、技术架构和安全防护方面,均进行了优化改进。一是优化丰富信息内容,更为全面、准确地反映信息主体信用状况;二是优化信用报告展示形式 和生成机制,提升信用报告的易读性...

2020-08-04 22:48:29 7087

原创 特征重要性与shap值

在模型的训练过程中,往往会需求更加优异的模型性能指标如准确率、召回等,但在实际生产中,随着模型上线使用产生衰减,又需要快速定位问题进行修复,因此了解模型如何运作、哪些特征起到了关键作用有着重要意义。同时,可解释的模型能够让业务方也就是模型使用者,能够更加信任和熟悉模型的决策过程。尤其在风控领域,基于金融机构的监管层要求以及信贷业务的稳健发展方面,都需要在信贷业务流程中部署的风控模型具有良好的解释性。机器学习效果往往会优于传统的评分卡模型,相对于可以对每个入模变量赋予权重的逻辑回归方法来说,机器学习的训练

2020-07-23 19:42:30 11073 4

原创 基于风控角度的个人征信报告解读

征信数据背景构建征信体系对扩展消费信贷业务的起到积极作用,征信数据为借贷机构提供借款人的基本信用画像,从而作出可靠的信贷决策。征信数据的相关链路包括,上游的数据生产者(各银行、消金公司等金融机构上报)、中游的征信机构(整合数据输出征信报告)及下游的征信信息使用者(个人或企业查询征信报告)。信贷机构,即征信信息使用者,在查询到申请人的信用报告中,需要解析得到详细字段,并从中直接或者间接得到征信变量,获取用户不同维度画像。因此需要对征信报告进行解析,并从征信报告中提取信息构建征信特征,从多种维.

2020-06-18 14:49:17 1747

原创 jupyter配置——添加目录

jupyter超实用功能:在做统计分析或者建模过程中,需要来回查看前后代码和中间步骤结果,目录栏功能能够快速定位到位置,能够大大提升工作效率。这里记录下安装过程,需要时方便查找。1.第一步, 安装 Jupyter Notebook建议直接安装anaconda2.第二步, 安装Jupyter Notebook extensionsconda install -c conda-forge jupyter_contrib_nbextensions3.第三步, 开启toc2插件..

2020-05-16 21:55:19 1363

原创 【CS224n课程笔记】Lecture 01 Introduction and Word Vectors

word vectors词向量有时被称为词嵌入word embeddings或词表示word representations,Word2vec本质上是一个学习单词向量的框架,为每个单词构建一个密集的向量,使其与出现在相似上下文中的单词向量相似。例如, ...

2020-03-01 19:00:11 242

原创 【统计学习方法笔记】第一章统计学习概论

1.1统计学习统计学习包括:监督学习,非监督学习,半监督学习,强化学习,本书主要讨论监督学习。1.2 统计学习的分类重点为监督学习:监督学习的实现步骤 得到一个有限的训练数据集合; 确定模型的假设空间,也就是所有的备选模型; 确定模型选择的准则,即学习的策略; 实现求解最优模型的算法; 通过学习方法选择最优模型; 利用学习...

2020-02-29 20:43:55 389

python re.compile()和findall() sub

https://blog.csdn.net/sjyttkl/article/details/84853000re.compile 函数compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。语法格式为:re.compile(pattern[ , flags])参数: pattern...

2019-12-23 22:21:35 714

原创 fasttext算法原理及使用

1. FastText原理fastText是一种简单高效的文本表征方法,性能与深度学习比肩。fastText的核心思想就是:将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类。这中间涉及到两个技巧:字符级n-gram特征的引入以及分层Softmax分类。主要功能在于:文本分类:有监督学习 词向量表征:无监督学习1.1 模型框架(Model a...

2019-12-21 22:30:17 3272 1

原创 Python eval()函数

eval() 函数用来执行一个字符串表达式,并返回表达式的值。通常,将字符串的内容表示为表达式时,便需要使用eval() 函数,特别是批量表示变量名或者dataframe内容时。eval(expression[, globals[, locals]])参数expression -- 表达式。 globals -- 变量作用域,全局命名空间,如果被提供,则必须是一个字典对象。...

2019-12-10 20:27:14 213

原创 jieba 中文分词介绍及使用

目录基本介绍功能及使用1. 分词2. 添加自定义词典2.1 载入词典2.2 调整词典3. 关键词提取3.1 基于 TF-IDF 算法的关键词抽取3.2 基于 TextRank 算法的关键词抽取4. 词性标注5. 并行分词6. kenize:返回词语在原文的起止位置基本介绍支持 3 种分词模式 1)精确模式:将句子最精确的分开,适...

2019-12-09 21:13:09 2958 1

原创 从词袋到 tf-idf

复习一下文本处理的一些基本概念。词袋:Bag-of-words,基于单词数量统计的 最简单的文本特征表示方法。对于文本数据,词袋可以理解为单词数量的统计列表。文本“it is a puppy and it is extremely cute”具有下图中的词袋表示。原始文本是一个单词序列,但词袋中没有任何序列,它只记录每个单词在文本中出现的次数。n元词袋:(bag-of-n-g...

2019-11-23 23:01:03 267

原创 python函数参数传递(params, *params, **params)

一般最开始接触也就是最简单的函数参数形如 def fuc(x) ,但是也有复杂的函数参数传递方式,总结一下python的传参方式,先介绍一下参数的基本类型,最后讲到最复杂的(**params)类型。1. 位置参数一个最简单的函数形式,其中x,y就是位置参数:def add_both(x, y): return x+y2. 默认参数最大的好处是能降低调用函数的难度;...

2019-11-10 23:06:23 21736 4

原创 时间切片特征衍生

在sql中比较容易处理类似“近n个月金额之和/最大值/最小值/平均值” 这样的变量,使用sum(case when date then amount else 0 end) 即可,如果是出差在外只能处理离线数据不能使用数据库时,这个时候就要用python去构造时间切片类的特征。整理了自己之前写过的代码,往往都太笨拙和重复。import pandas as pdimport numpy a...

2019-10-28 21:27:18 953

原创 LightGBM参数

LightGBM的优势。 更快的训练速度和更高的效率: LightGBM使用基于直方图的算法。例如,它将连续的特征值分桶(buckets)装进离散的箱子(bins),这是的训练过程中变得更快。 更低的内存占用:使用离散的箱子(bins)保存并替换连续值导致更少的内存占用。 更高的准确率(相比于其他任何提升算法) : 它通过leaf-wise分裂方法产生比level-wis...

2019-01-17 00:34:11 7348

原创 表的复用

以前很少用到这种结构,mark一下。题目描述:对所有员工的当前(to_date='9999-01-01')薪水按照salary进行按照1-N的排名,相同salary并列且按照emp_no升序排列CREATE TABLE `salaries` (`emp_no` int(11) NOT NULL,`salary` int(11) NOT NULL,`from_date` d

2017-09-30 21:00:45 978

原创 《机器学习实战》之Adaboost

首先抛出问题,如何解决不均衡分类问题?这个问题我觉得应该从原理上和实际调参两个方面来回答,原理部分从adboost入手,实践部分则是sklearn相关参数(这个后面遇到了再补充)。什么是boosting?通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类性能。那么问题又来了,对于提升方法来说,有两个问题需要回答:(1)每一轮如和改变训练样本的权值和概率分布?

2017-09-30 16:57:37 1514

原创 LeetCode500. Keyboard Row

Given a List of words, return the words that can be typed using letters of alphabet on only one row's of American keyboard like the image below.【题目】对于输入的单词list,如果单词的每个字母都是在键盘上的一行内,则返回这种单词的list

2017-08-01 21:19:29 546

原创 LeetCode561. Array Partition I

Given an array of 2n integers, your task is to group these integers into n pairs of integer, say (a1, b1), (a2, b2), ..., (an, bn) which makes sum of min(ai, bi) for all i from 1 to n as large as po

2017-07-31 20:52:41 516

原创 LeetCode617. Merge Two Binary Trees

Given two binary trees and imagine that when you put one of them to cover the other, some nodes of the two trees are overlapped while the others are not.You need to merge them into a new binary tree

2017-07-31 19:52:09 486

原创 LeetCode566. Reshape the Matrix

【题目】:实现矩阵reshape操作,当reshape满足数组维度时返回结果,否则返回原数组即可。【示例】:Input: nums = [[1,2],[3,4]], r = 1, c = 4Output: [[1,2,3,4]]Input: nums = [[1,2], [3,4]],r = 2, c = 4 Output: [[1,2], [3,4]]【解法1】:

2017-05-14 22:38:15 653

原创 Sklearn-preprocessing.PolynomialFeatures

在建模过程中多次用到过sklearn.preprocessing.PolynomialFeatures,可以理解为专门生成多项式特征,并且多项式包含的是相互影响的特征集,比如:一个输入样本是2维的。形式如[a,b] ,则二阶多项式的特征集如下[1,a,b,a^2,ab,b^2]。官网文档:http://scikit-learn.org/stable/modules/generated/

2017-05-05 20:48:51 4150

原创 数据分析与数据挖掘面试题收集

比赛怎么做的(先说解决的问题,属于回归还是二分类问题,KS曲线是什么含义,能优化吗(用AUC代替))KS值:用真正率和假正率的累计值分别做为纵坐标就得到两个曲线,这就是K-S曲线。GBDT与XGBoost的区别(知乎wepon大神:https://www.zhihu.com/question/41354392)传统GBDT以CART作为基分类器,xgbo

2017-04-07 00:53:00 5137

原创 使用python访问mysql数据库/取数据/写入文件

总结一下最近使用mysql数据库的代码:进行访问数据库/表——取出表中指定列取值为特定值的所有样本——写入文件 #-*- coding;utf-8 -*-# import sys# reload(sys)#sys.setdefaultencoding( "utf-8" ) importmysql.connectorimport pandas as pd conn=mysql

2017-03-10 16:57:53 4602

原创 Sklearn-preprocessing.scale/StandardScaler/MinMaxScaler

标准化数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。这样去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化0-1标准化(0-1 normalization) 也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中m

2017-02-20 12:11:30 11129 1

原创 Sklearn-PolynomialFeatures()

sklearn类:classsklearn.preprocessing.PolynomialFeatures(degree=2,interaction_only=False, include_bias=True)专门产生多项式的,并且多项式包含的是相互影响的特征集。比如:一个输入样本是2维的。形式如[a,b] ,则二阶多项式的特征集如下[1,a,b,a^2,ab,b^2]。参数解释

2017-02-19 22:33:05 2286 2

原创 sklearn.metrics中的评估方法介绍(accuracy_score, recall_score, roc_curve, roc_auc_score, confusion_matrix)

accuracy_score分类准确率分数是指所有分类正确的百分比。分类准确率这一衡量分类器的标准比较容易理解,但是它不能告诉你响应值的潜在分布,并且它也不能告诉你分类器犯错的类型。形式:sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)normalize:默认

2017-02-19 21:15:16 94242 1

原创 理解if __name__ == "__main__":

__name__是当前模块名,当模块被直接运行时模块名为 __main__。这句话的意思就是,当模块被直接运行时,以下代码块将被运行,当模块是被导入时,代码块不被运行。 示例:# file one.pydef func(): print("func() in one.py") print("top-levelin one.py") if __name__ =="

2017-02-17 21:43:20 792

原创 dateutil模块

dateutil模块主要有两个函数,parser和rrule。parser是根据字符串解析成datetime,而rrule是则是根据定义的规则来生成datetime。 parserparser是根据字符串解析成datetime,字符串可以很随意,可以用时间日期的英文单词,可以用横线、逗号、空格等做分隔符。没指定时间默认是0点,没指定日期默认是今天,没指定年份默认是今年。fr

2017-02-15 21:46:43 5452

原创 time和datetime模块

time模块1)time模块中时间表现的格式主要有三种:  a、timestamp时间戳,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量  b、struct_time时间元组,共有九个元素组。  c、formattime 格式化时间,已格式化的结构使时间更具可读性。包括自定义格式和固定格式。 datatime模块重新封装了time模块,提供更多接

2017-02-15 21:32:55 1069

原创 每天一点SQL(持续更新)

1.原始数据createdatabase practice;USE practice;CREATETABLE STUDENT(SNOVARCHAR(3) NOT NULL,SNAMEVARCHAR(4) NOT NULL,SSEXVARCHAR(2) NOT NULL,SBIRTHDAYDATE,CLASSVARCHAR(5));CREATETABL

2017-02-14 19:57:50 1506

原创 SQL面试题练习-实现pivot行列转换

题目:实现把表t1的数据变成表t2的形式          t1yearmonthamount199111.1199121.2199131.319914

2017-02-13 20:56:23 3843

原创 用Python实现的数据结构与算法-队列

1.概述队列(Queue)是一种先进先出(FIFO)的线性数据结构,插入操作在队尾(rear)进行,删除操作在队首(front)进行。 2.ADT队列ADT(抽象数据类型)一般提供以下接口: Queue():创建队列enqueue(item):向队尾插入项dequeue():返回队首的项,并从队列中删除该项empty():判断队列是否为空size():返

2017-02-13 12:37:29 2211

原创 用python学习数据结构与算法-堆栈

堆栈堆栈(Stack)是一种后进先出(LIFO)的线性数据结构,对堆栈的插入和删除操作都只能在栈顶(top)进行。栈和队列主要用于计算过程中保存临时数据。堆栈ADT(抽象数据类型)一般提供以下接口:Stack()创建堆栈push(item)向栈顶插入项pop()返回栈顶的项,并从堆栈中删除该项clear()清空堆栈empty()判断堆栈是否为空

2017-02-13 11:11:15 1228

原创 Sklearn-CrossValidation交叉验证

交叉验证概述进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。最先我们用训练准确度(用全部数据进行训练和测试)来衡量模型的表现,这种方法会导致模型过拟合;为了解决这一问题,我们将所有数据分成训练集和测试集两部分,我们用训练集进行模型训练,得到的模型再用测试集来衡量模型

2017-02-11 21:08:21 36381 2

原创 Sklearn-GBDT(GradientBoostingDecisonTree)梯度提升树

GBDT类库概述GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting), GBRT(Gradient Boosting Regression Tree),MART(Multiple Additive Regression Tree),其实都是指的同一种算法。sklearn中称为GradientTree

2017-02-11 14:10:38 16491 3

原创 Sklearn-RandomForest随机森林

在scikit-learn中,RandomForest的分类类是RandomForestClassifier,回归类是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。sklearn官网地址(RandomForestClassifier):http://scikit-learn.org/stable/mod

2017-02-10 16:28:42 69651 13

原创 Sklearn-GridSearchCV网格搜索

GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会

2017-02-10 14:44:45 39681 6

转载 利用sklearn进行集成学习之调参

转自:http://www.cnblogs.com/jasonfreak/p/5720137.html目录1 Random Forest和Gradient Tree Boosting参数详解2 如何调参?2.1 调参的目标:偏差和方差的协调2.2 参数对整体模型性能的影响2.3 一个朴实的方案:贪心的坐标下降法2.3.1 Random Forest调参案例:Digit

2017-02-09 14:39:00 6336 1

神经网络与深度学习

Michel A Nielsen的英文书籍的中文版本,经典的深度学习入门书籍

2019-01-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除