自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

t15600624671的博客

转载论文画图颜色搭配

!

2020-01-19 13:42:58 9261

原创 python使用h5py库存取GB级别数据

经过处理的中间数据大小为几十GB，如果存为npy格式，效率低下，存取都要占用大量内存，而且速度很慢，故将存储格式改为h5格式。1、数据保存a = h5py.File('E:/Alibaba/add_data.h5', 'w')a.create_dataset('data', data=add_data)f.close()2、读取数据b = h5py.File('E:/Alibaba/...

2018-12-20 14:00:51 1800 1

转载归一化（Normalization）、标准化（Standardization）和中心化/零均值化（Zero-centered）

转载自：https://www.jianshu.com/p/95a8f035c86c1 概念归一化：１）把数据变成(０，１)或者（1,1）之间的小数。主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。２）把有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为...

2018-12-18 15:40:13 3625

转载如何将两个字段合成一个字段显示(oracle和sqlserver的区别)

oracle中，如何将两个字段数据合并成一个字段显示，接下来看一下在sql server和pl/sql的区别sql server中如何合并（用Cast()函数）--1、创建模拟的数据表---create table GoodsCate( Mid int not null, Code varchar(10) not null, Name varchar(20) no...

2018-12-17 13:52:34 7211

转载 scikit-learn决策树算法类库使用小结

转载自：https://www.cnblogs.com/pinard/p/6056319.html 之前对决策树的算法原理做了总结，包括决策树算法原理(上)和决策树算法原理(下)。今天就从实践的角度来介绍决策树算法，主要是讲解使用scikit-learn来跑决策树算法，结果的可视化以及一些参数调参的关键点。1. scikit-learn决策树算法类库介绍scikit-learn决策树算法类库内部实

2017-12-25 18:23:19 339

转载决策树的先剪枝和后剪枝

转载自：http://blog.csdn.net/u014697805/article/details/78636135 https://www.jianshu.com/p/794d08199e5e(一)剪枝算法的简介：剪枝一般是为了避免树的过于复杂，过于拟合而进行的一个动作，剪枝操作是一个全局的操作。（二）预剪枝：预剪枝就是在树的构建过程（只用到训练集），设置一个阈值（样本个数小于预定阈

2017-12-25 17:55:06 16879

原创 excel截取前、中、后几个字符串的方法

在对字符串进行处理时，我们经常会用到取出某个单元格数据的前几位数，中间几位数，或者后几位数，比如要取出省市区中的市，该怎么办呢？一、left函数用法：left(取值的数值,取值位数) 这里假设在A1单元格中有一串数字，如：0123456789，我要取出左边4个数字，方法如下：首先点击B1单元格（这里假设把显示结果放在B1单元格中），在函数栏中输入如下公式即可： =left(A1,4)二、ri

2017-12-22 11:30:51 124047

转载 oracle中substr() instr() 用法

转载自：https://www.cnblogs.com/miaoying/p/5784947.html--substr(字符串，截取开始位置，截取长度)=返回截取的字select substr('miaoying',0,1) from dual;--返回结果为：mselect substr('miaoying',1,1) from dual;--返回结果为：m--说明0和1都表示截取的位置为第一

2017-12-21 10:33:24 328

转载使用K-S检验一个数列是否服从正态分布、两个数列是否服从相同的分布

转载自：https://www.cnblogs.com/chaosimple/p/4090456.html 假设检验的基本思想：若对总体的某个假设是真实的，那么不利于或者不能支持这一假设的事件A在一次试验中是几乎不可能发生的。如果事件A真的发生了，则有理由怀疑这一假设的真实性，从而拒绝该假设。实质分析：假设检验实质上是对原假设是否正确进行检验，因此检验过程中要使原假设得到维护，使之

2017-12-11 10:36:07 3620 2

转载欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-12-11 10:33:04 142

转载 Python中的分组函数（groupby、itertools）

转载自：https://www.cnblogs.com/dreamer-fish/p/5522687.htmlfrom operator import itemgetter #itemgetter用来去dict中的key，省去了使用lambda函数from itertools import groupby #itertool还包含有其他很多函数，比如将多个list联合起来。。d1={'name'

2017-11-23 14:09:36 2877

转载《机器学习实战》第五章梯度上升算法的直观理解

转载自：http://www.jianshu.com/p/eb94c60015c7第五章讲的是Logistic 回归，作者提出了梯度上升算法，本文是对该算法的一个通俗易懂的解释，不需要任何梯度的知识就能理解简单描述问题给定一个样本集，每个样本点有两个维度值（X1，X2）和一个类别值，类别只有两类，我们以0和1代表。数据如下所示：样本 X1 X2 类别1 -1.4 4.7 1 2

2017-11-20 15:58:05 1732 1

转载 Python的字典的items(), keys(), values()，时间类型处理

转载自：https://www.cnblogs.com/qinxiaoqin/p/7204648.html Python的字典的items(), keys(), values()都返回一个list dict = { 1 : 2, ‘a’ : ‘b’, ‘hello’ : ‘world’ } dict.values() [‘b’, 2, ‘wo

2017-11-16 11:41:17 941

转载【原】关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

转载自：https://www.cnblogs.com/chaosimple/p/4153167.html一、标准化（Z-Score），或者去除均值和方差缩放公式为：(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。实现时，有两种不同的方式：使用sklearn.prep

2017-11-12 03:37:27 341

转载分类模型到底如何选择

转载自：http://blog.csdn.net/zm714981790/article/details/51083148表面上看：决策树可以对付缺失值，而逻辑回归需要挖掘人员预先对缺失数据进行处理。但实际上决策树同样要对缺失值做出某种假设和处理。例如CART在遇到一个变量中有缺失情况时，是用次级变量进行替换切分。这种做法在逻辑回归中也可以办到，但需要单独的编程。而在决策树中，这一步已经嵌入软件

2017-11-03 17:49:59 3324

转载机器学习中的数据不平衡问题

最近碰到一个问题，其中的阳性数据比阴性数据少很多，这样的数据集在进行机器学习的时候会使得学习到的模型更偏向于预测结果为阴性。查找了相关的一些文献，了解了一些解决这个问题的一些方法和技术。首先，数据集不平衡会造成怎样的问题呢。一般的学习器都有下面的两个假设：一个是使得学习器的准确率最高，另外一个是学习器应该用在与训练集有相同分布的测试集上。如果数据不平衡，那么学习器使得它的准确率最高肯定是更偏向于预

2017-10-17 17:11:22 738

转载数据分箱

转载自：http://www.cangfengzhe.com/sjwj/2908.html数据分箱的适用情形数据分箱是下列情形下常用的方法：1.某些数值自变量在测量时存在随机误差，需要对数值进行平滑以消除噪音。2.有些数值自变量有大量不重复的取值，对于使用<、>、=等基本操作符的算法（如决策树）而言，如果能减少这些不重复取值的个数，就能提高算法的速度。3.有些算法只能使用分类自变量，需要把数值变量离

2017-09-25 21:51:16 6469 1

转载 Python实现逻辑回归(Logistic Regression in Python)

转载自：http://www.powerxing.com/logistic-regression-in-python/本文基于yhat上Logistic Regression in Python，作了中文翻译，并相应补充了一些内容。本文并不研究逻辑回归具体算法实现，而是使用了一些算法库，旨在帮助需要用Python来做逻辑回归的训练和预测的读者快速上手。逻辑回归是一项可用于预测二分类结果(binary

2017-09-15 16:11:46 6712 2

转载 R语言笔记1：t检验和Wilcoxon检验

转自新浪博客，转载地址：http://blog.sina.com.cn/s/blog_427c24ae0102wg7n.html1、t检验数据是高血压患者治疗前后舒张压的变化，这个内容最熟悉不过了吧，虽然采用t检验的方法目前有争议，我们后面再讨论。treat 1为处理组，treat 2是对照组。显然，要比较两组的dd（血压下降值）。# 读入SPSS格式的数据setwd("C:/R/R语言笔记")li

2017-09-11 18:24:51 28196

转载交互式数据可视化在Python中用Bokeh实现

文章转载自：http://www.zuimoban.com/jiaocheng/python/6615.htmlBokeh是一个专门针对Web浏览器的呈现功能的交互式可视化Python库。这是Bokeh与其它可视化库最核心的区别。正如下图所示，它说明了Bokeh如何将数据展示到一个Web浏览器上的流程。正如你所看到的，Bokeh捆绑了多种语言（Python, R, lua和Julia）。这些

2017-09-04 20:34:55 6622 1

转载 R语言编码规范 · 谷歌发布

转载自：http://www.dataguru.cn/article-11864-1.html本文译自《Google’s R Style Guide》原文链接：https://google.github.io/styleguide/Rguide.xml?from=timeline&isappinstalled=0R是一门主要用于统计分析和作图的高级编程语言。制定本规范的目的是让R代码更容易被理解

2017-09-04 18:57:05 987

转载 AIC准则

AIC信息准则即Akaike information criterion，是衡量统计模型拟合优良性的一种标准，又由与它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则。它建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。在一般的情况下，AIC可以表示为： AIC=2k-2ln(L)，其中：k是参数的数量，L是似然函数。假设条件是模型的误差服从独立正态分布。

2017-09-03 22:47:24 5604

原创评分卡风险视图和异常值处理（R语言）

1、风险视图# 风险视图library(ggplot2)library(plyr)homedir <- "C:/Users/Administrator/Desktop/rrr1/rrr" #设置路径setwd(homedir)a <- read.csv('C:/Users/Administrator/Desktop/bianliang.csv') #读取大宽表b <- sub("Min.

2017-08-31 17:28:20 1040

原创 R语言生成顺序标号，累加，滞后函数

1、按照分组生成顺序编号df<-data.frame(group=c(rep("a",3),rep("b",4),rep("c",2)))df<-transform(df, a=as.integer(group))index<-function(x){return(c(1:length(x)))}df<-transform(df,b=unlist(tapply(a,group,index)))

2017-08-25 14:22:59 8070 1

转载统计学之三大相关性系数（pearson、spearman、kendall）

（转自微信公众号克里克学苑）三个相关性系数（pearson, spearman, kendall）反应的都是两个变量之间变化趋势的方向以及程度，其值范围为-1到+1，0表示两个变量不相关，正值表示正相关，负值表示负相关，值越大表示相关性越强。1. person correlation coefficient（皮尔森相关性系数）公式如下：统计学之三大相关性系数（pearson、spear

2017-08-16 14:54:38 48571 4

原创 python数据框基本操作

DataFrame行数：len(data) DataFrame列数：len(data.ix[1]) 数据类型：type(data)

2017-08-07 17:29:33 11276

转载 R语言实现随机森林

转自简书链接：http://www.jianshu.com/p/ca09dedb05411、让两个以及两个以上组合树变成一颗树：combine()combine(...)…：每个随机森林对象data(iris)rf1 <- randomForest(Species ~ ., iris, ntree=50, norm.votes=FALSE)rf2 <- randomForest(Specie

2017-08-01 11:54:44 20324 2

原创在虚拟机上安装5节点Hadoop分布式集群(HA)-环境准备

本文使用的环境为Centos6.5，安装好一个系统后，在虚拟机上选择虚拟机-管理-克隆，克隆剩余四台。克隆后的虚拟机无法上网，需要进行以下配置。1、修改mac地址1、修改，如图： 2、开机，记下mac地址： 3、进入vi /etc/sysconfig/network-scripts修改ifcfg-eth0，如图： 4、service network restart2、修改主机名

2017-07-27 14:26:51 847

转载手把手教你用R语言建立信用评分模型（完结篇）— —打分卡转换

全部代码请访问我的Github： http://github.com/frankhlchi/R-scorecard （点击原文链接即可）打分卡转换我们在上一部分，我们已经基本完成了建模相关的工作，并用混淆矩阵验证了模型的预测能力。接下来的步骤，就是将Logistic模型转换为标准打分卡的形式。在建立标准评分卡之前，我们需要选取几个评分卡参数：基础分值、 PDO（比率翻倍的分值）和好坏比。这里，

2017-07-26 17:56:22 10046 1

原创 VMware下，虚拟机时间同步设置

本来是从网上摘抄的，可是前前后后转了3篇文章，组合起来的内容才终于实现了本机多台虚拟机的时间同步，所以把顺序整理一下，这个步骤应该是和系统有关，因为在6.5中安装时，并没有出现没有介质的错误。1、安装vmtoolsCentos安装VMware Tools： [root@piaoyun-vm vmware-tools-distrib]# su root切换为 root1、安装必要的工具套件： [r

2017-07-24 19:02:21 8795 1

转载 ROC、K-S，教你巧妙使用模型评价指标

无论是利用模型对信用申请人进行违约识别，还是对授信申请人进行逾期识别……在各种各样的统计建模中，永远必不可少的一步是对模型的评价，这样我们就可以根据模型评价指标的取值高低，来决定选取哪个模型。最近在某国内商业银行的授信项目中，我们尝试了决策树、logistic等模型来探寻逾期客户的特征。有一天一位专攻系统的小伙伴忽然问我，ROC曲线和K-S曲线的区别和联系是什么？我当时简单解释了一下，事后却细思

2017-07-20 10:30:46 1737

转载多重共线性的处理方法（转载）

（一）删除不重要的自变量自变量之间存在共线性，说明自变量所提供的信息是重叠的，可以删除不重要的自变量减少重复信息。但从模型中删去自变量时应该注意：从实际经济分析确定为相对不重要并从偏相关系数检验证实为共线性原因的那些变量中删除。如果删除不当，会产生模型设定误差，造成参数估计严重有偏的后果。（二）追加样本信息（不过实际操作中，这个方法实现率不高）多重共线性问题的实质是样本信息的不充分而导致模型

2017-07-18 14:22:38 1787

原创 R语言计算频数和频率

需求是这样的，有下面一个数据框：产品分类期数逾期月数委托贷款 24 1 委托贷款 36 1 担保贷款 24 2 委托贷款 24 2 信用贷款 36 4 担保贷款 24 3 信用贷款 24 1 委托贷款 36 3 担保贷款 24 2现在希望得到每种产品种类在不同期数时，逾期月

2017-07-14 11:26:54 46898 1

原创 sql筛选重复数据

1、单个字段去除重复值select distinct '字段名' from '表名'2、如果需求不仅仅是找出某一个字段的唯一值，我们还想查看一下，这个字段拥有重复值的几条数据，进一步分析重复的原因，那就需要用到下面的语句：select code,count(code) from report_detailed group by code having count(code)>1 order

2017-07-12 16:41:36 18787

原创申请评分卡模型的构建（一）——数据清洗

http://blog.csdn.net/csqazwsxedc/article/details/51225156 这个链接大致描述了评分卡的构建过程。

2017-07-11 20:09:05 1782

原创使用Python完成公司名称和地址的模糊匹配

本来之前一直是用R的，好歹有3，4个月的经验了。。。。没想到现公司没一个用R，想想python听起来似乎是比R要强大一些，于是又没有原则地去学python了。正如题目中说的一样，这次的程序是为了实现公司名及公司地址的模糊匹配，也可以迁移到房产信息、电话号码之类的字段上。本来的应用场景是反团伙欺诈以及失联客户的修复，大概的意思就是说多个相同公司的同事都在我公司借贷的欺诈可能性要高于其他客户，以及造假的

2017-07-06 21:34:58 50005 33

原创如何将数据框中，值为na的日期类型转换为0

本来，将数据框中的NA值转换为0，这个问题倒是很容易解决的，只需要一句话：a[is.na(a)] <- 0郁闷的是，当数据框中有日期格式的字段，且存在NA值时，就出现这么一条错误：Error in as.Date.numeric(value) : ‘origin’ must be supplied实在想不到更好的办法，只能先将日期格式转换为字符串，进行第一步操作之后，再转换回来了。。。month10

2017-07-06 16:27:46 2676

原创 R语言循环读取excel并保存为RData

R语言循环读取excel并保存为RData之前写过一个循环读取excel的代码，最近又有了新的需求：循环读取xlsx文件中的多个sheet，处理完之后循环输出到xlsx文件中的多个sheet中，总结一下。1、循环读取csv文件并输出为RData格式homedir <- "D:/Documents/tina/Database" #设置路径setwd(homedir)temp = list.file

2017-07-06 14:01:39 9895 2

企业名称词典

实现公司名及公司地址的模糊匹配，也可以迁移到房产信息、电话号码之类的字段上。本来的应用场景是反团伙欺诈以及失联客户的修复，大概的意思就是说多个相同公司的同事都在我公司借贷的欺诈可能性要高于其他客户，以及造假的房产信息和电话号码可能不完全相同，但有一定的相似性，我们需要把这些客户找出来，但是又不能用精确匹配。

2017-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除