自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

转载 逻辑斯蒂回归中特征共线性或强相关的影响

https://blog.csdn.net/lipengcn/article/details/82467082 粘贴增加一部分解释:设想建立一个具有两变量X1和X2的线性模型,假设真实模型是Y=X1+X2。理想地,如果观测数据含有少量噪声,线性回归解决方案将会恢复真实模型。然而,如果X1和X2线性相关(大多数优化算法所关心的),Y=2*X1, Y=3*X1-X2或Y=100*X1-99...

2018-11-20 00:57:26 895

转载 随机森林调节参数

原文https://www.jianshu.com/p/27b2ef36a182这里简要介绍下这个题目的注意事项:多分类。为每个类输出相应类的概率 评估的时候使用的是multi-class log loss特征工程无疑,当前使用的是最原始的特征。我们并未对特征进行一定的调整,而是粗暴的直接拿来使用。目前特征分成以下几类:时间类,包括月份、天、时、具体星期几 地址类,包括经...

2018-11-06 23:34:13 6268

转载 Python机器学习包的sklearn中的Gridsearch简单使用

原文链接:https://blog.csdn.net/selous/article/details/70229180cross-validation(交叉验证)A solution to this problem is a procedure called cross-validation (CV for short). A test set should still be held ou...

2018-11-06 22:39:23 715

转载 如何在 Kaggle 首战中进入前 10%

链接https://www.colabug.com/3536216.html Kaggle 是目前最大的 Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金,在 Kaggle 上组织数据竞赛。我最近完成了第一次比赛, 在 2125 个参赛队伍中排名第 98 位(~ 5%) 。因为是第一次参赛,所以对这个成绩我已经很满意了。在 Kaggle 上一次比赛的结果除了排名以外,还...

2018-11-06 22:27:33 251

转载 集成学习XGBoost原理

转自:https://www.jianshu.com/p/c558d0448ac7boosting翻译过来就是提升的意思,通过研究如果将许多个弱分类器集成在一起提升为一个强分类器就是多数boosting算法所研究的内容。其中最为经典的算法就是Adaboost,gdbt,xgboost等算法,本文将从xgboost的原理出发,带大家理解boosting算法。由于xgboost是提升树模型,所以它...

2018-10-31 00:50:18 273

原创 xgboost理解

xgboost在不断优化目标函数值,每次增加一个树都是为了使这个目标函数值下降,每增加一颗树目标函数会有所变更(复杂度,损失函数都会变化),但是具体架构不变。在单棵树内特征的分裂也是按照目标函数值是否可以降低来做分裂。知道这个再结合百度一些xgboost文章大概可以了解。...

2018-10-31 00:48:40 168

转载 筛选变量方法-IV

转发

2018-10-24 12:11:03 3571

原创 ggplot2分面展示竞品

setwd("C:/Users/zhangluying/Desktop/项目/BIGINVEST/竞品利率监测/R画图")datastr(data)data$firstlibrary(ggplot2)library(reshape)str(data$date)#data$datedata$producthead(data)#混合低利率和高利率图#

2017-09-25 18:55:02 420

转载 R语言 地图漫谈

原文地址:点击打开链接R语言有着令人称赞的可视化能力,在这篇文章中,我们试着用R语言来展示地图数据,也就是绘制地图,并在地图上展示数据的分布。   由于R语言所带的中国地图过于老旧,因此我们通过寻找外部地图数据文件,并在R中载入并展示地图。    我们所用的地图数据文件是Shapefile格式的文件,它可以存储地理要素的几何位置和属性信息,Shapefile中的地理要素可通过点、线、面

2017-09-21 18:56:32 3598

原创 python-xml.etree.ElementTree解析xml文件

直接上代码,请看注释。附件图片为原始xml文件的部分展示。import osimport gzipimport xml.etree.ElementTree as ETdef getfilename(path,l = ''): l = str(l) file = []#定义一个列表用来接收搜索到的符合条件的文件名(含绝对路径) sorfile = []

2017-09-21 16:49:43 538

原创 r画中国地图

step1: install.packages("maptools")step2:library(maptools)step3:下载中国GIS数据(http://cos.name/wp-content/uploads/2009/07/chinaprovinceborderdata_tar_gz.zip),解压到我的文档中(默认的R工作空间)           可以用getwd()查看

2017-09-21 11:52:28 1043 1

转载 ggplot2

之前一直觉得算法666,学习重点应该放在各种花样算法中,工作中老大让一天分析多个东西的话,来不及细究,只能用excel出结论,才发现自己只会画个简单的线形图柱状图之类,弱爆了…… 画图如此重要……想要的图出不来,憋死了……,转战ggplot转载地址:点击打开链接关于ggplot2包的基本功能介绍(下)黄锐5 个月前7. Statistical transfo

2017-09-20 15:54:59 1389

转载 中文分词Rwordseg

下载安装方法:install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")注意在之前要安装好JAVA,并配置后JAVA环境 1.      分词操作:(1)segmentCN(strwords)> segmentCN("你好北京")[1] "你好" "北京" (2)如果输入参

2017-07-05 18:12:47 601

原创 时间序列分析之自相关函数图

datadata$dtdata$dtlibrary(dplyr)length(data[,1]) #1613行数据#生成每天时间dates#dates2#dates2$dates#head(dates2)#head(data)#data3ndatesn1is.ts(n)acf(n,type="correlation

2017-06-08 20:52:13 22642

转载 shell中的各种括号的使用方法

原文连接:点击打开链接在这里我想说的是几种shell里的小括号,大括号结构和有括号的变量,命令的用法,如下:1.${var} 2.$(cmd) 3.()和{} 4.${var:-string},${var:+string},${var:=string},${var:?string} 5.$((exp)) 6.$(var%pattern),$(var%%pattern

2017-05-18 16:59:12 358

转载 linux 数组

引言  在Linux平台上工作,我们经常需要使用shell来编写一些有用、有意义的脚本程序。有时,会经常使用shell数组。那么,shell中的数组是怎么表现的呢,又是怎么定义的呢?接下来逐一的进行讲解,shell中的数组。数组的定义  何为数组?学过计算机编程语言的同学都知道,数组的特性就是一组数据类型相同的集合(不包括有一些编程语言提出来的关联数组的概念)。那么shell中数组是怎

2017-05-18 16:53:24 388

转载 pycharm安装第三方库

原文链接:点击打开链接除了使用easy_insatll和pip工具安装Python第三方库外还可以使用pycharm安装Python第三方库,步骤如下:1.打开pycharm,点击File,再点击settings2.点击settings之后再点击project下面的project Interpreter将会出现如下界面:3.接下来点击上面界面右上角的“+”将会出

2017-05-10 21:47:31 995

原创 python从oracel中提取ip信息并批量ping后保存

目的:    从oracle中提取ip信息,通过调用os实现ping测。生成结果后保存,直接上代码。#!/usr/bin/python#coding=utf-8import osimport cx_Oracle import xlwtimport datetimehe=datetime.datetime.now().strftime('%m-%d-%H')#输出特定格式

2017-05-08 12:31:50 1135

原创 python连接oracel数据库,提取数据后制图并通过邮件发送

总体要求:               通过python自动从oracle提取原始数据,对原始数据制图,并发送邮件。发邮件时,通过oracle提取的数据保存为excel作为附件发送,图片及相关文字内容通过邮件正文发送。=================================================================================

2017-05-05 18:19:00 3195 1

转载 linux下的shell 快捷键

地址:点击打开链接Ctrl+p重复上一次命令Ctrl+a跳到第一个字符前Ctrl+x同上但再按一次会从新回到原位置Ctrl+b前移一个字符不删除字符情况下Ctrl+h删除前一个字符Ctrl+u删除提示符前的所有字符Ctrl+w同上Ctrl+d删除提示符后一个字符或exit或logoutCtrl+e转到字符尾部Ctrl+f后移一个字符Ctrl+k删除提

2017-04-27 10:51:23 297

转载 pycharm 使用教程

原地址:点击打开链接作为PyCharm编辑器的起步,我们理所当然的先写一个Hello word,并运行它。1,新建一个项目File --> New Project...2,新建一个文件右键单击刚建好的helloWord项目,选择New --> Python File3,输入文件名输入文件名,没什么好说的4,进入编写界面PyCharm的默认编辑界面

2017-04-26 18:19:42 556

转载 R语言时间处理

原来有两种,一种是日期,一种是时间:链接:点击打开链接R语言的基础包中提供了两种类型的时间数据,一类是Date日期数据,它不包括时间和时区信息,另一类是POSIXct/POSIXlt类型数据,其中包括了日期、时间和时区信息。基本总结如下:日期data,存储的是天;时间POSIXct 存储的是秒,POSIXlt 打散,年月日不同;日期-时间=不可运算。一般来讲,R语言

2017-04-13 17:37:16 15601

转载 python 文件目录操作(os模块)

http://www.cnblogs.com/kaituorensheng/archive/2013/03/18/2965766.htmlpython编程时,经常和文件、目录打交道,这是就离不了os模块。os模块包含普遍的操作系统功能,与具体的平台无关。以下列举常用的命令1. os.name()——判断现在正在实用的平台,Windows 返回 ‘nt'; Linux 返回’po

2017-03-29 20:27:18 503

转载 python类和对象学习

转载地址:python中一切皆为对象,所谓对象:我自己就是一个对象,我玩的电脑就是对象,坐着的椅子就是对象,家里养的小狗也是一个对象。。。。。。  我们通过描述属性(特征)和行为来描述一个对象的。比如家里的小狗,它的颜色,大小,年龄,体重等是它的属性或特征。它会汪汪叫,会摇尾巴等是它的行为。我们在描述一个真实对象(物体)时包括两个方面: 它可以做什么(行为)

2017-03-29 18:11:03 292

原创 python学习

参考:http://www.cnblogs.com/cherishry/p/5725184.htmlpython在linux中退出:exit()获取当前路径:os.getcwd()  导入os模块sys模块sys.setdefaultencoding('utf-8') 设置系统默认编码,执行dir(sys)时不会看到这个方法,在解释器中执行不通过,可以先执行reload(s

2017-03-29 18:03:31 329

转载 R语言中时间格式使用总结

原文地址:http://blog.sina.com.cn/s/blog_7d8326290102w0rl.html对于时间格式方面处理,每种语言多有自己的特定的函数或者类来处理,SAS里面依赖于put、input 、putn()、intnx、intck、today()等函数来处理,python里面主要依赖于time和datetime两个包,java里面SimpleDateForma

2017-03-27 21:11:55 2088

转载 R语言中包的操作

转载地址:http://blog.sina.com.cn/s/blog_5de124240101q8ie.html1. 列出包所在库的路径.libPaths()[1] "C:/Program Files/R/R-3.0.2/library"2.安装包,括号里面包的名称要加英文引号,在列出的CRAN镜像站点列表中选择一个进行下载,我一般选的是China(Hefei)insta

2017-03-24 14:47:56 2024

转载 解释比较好的P值和t检验

http://blog.sina.com.cn/s/blog_53c32df20101aiz5.html

2016-12-21 22:04:12 3947

转载 对pearson相关系数以及协方差矩阵的理解

之前一直从公式中理解,今天看到这个回答,用两个向量夹角余弦来理解感觉发现了新世界https://segmentfault.com/q/1010000000094674其二, 按照大学的线性数学水平来理解, 它比较复杂一点,可以看做是两组数据的向量夹角的余弦.皮尔逊相关的约束条件从以上解释, 也可以理解皮尔逊相关的约束条件:1 两个变量间有线性关系2 变量

2016-12-19 21:45:50 5125

原创 R判断逻辑回归参数共线性

方差膨胀因子(Variance Inflation Factor,VIF):是指解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比。容忍度的倒数,VIF越大,显示共线性越严重。经验判断方法表明:当0多重共线性;当10≤VIFsetwd('C:/Users/zhangluying/Desktop/建模/数据')library(dplyr)library(pR

2016-12-16 22:45:31 6601

转载 为什么一些机器学习模型需要对数据进行归一化?

http://www.open-open.com/lib/view/open1429697131932.html

2016-12-01 18:15:43 1940

转载 广义线性模型 R--glm函数

转载http://www.cnblogs.com/runner-ljt/

2016-11-25 18:52:15 6404

原创 随机抽样(分层抽样)和朴素贝叶斯分类

这里用iris数据集分三层抽样install.packages("e1071");#安装朴素贝叶斯预测包install.packages("sampling")library(sampling);library(e1071);sample#无放回抽样,(数据集,抽样依据的列名,每层需要抽的观测数,有放回抽样,不加额外描述)trai

2016-05-20 16:17:42 965

转载 建模和gbdt

原文点击打开链接作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究。注解:truth4sex 编者按:本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boosted Tree》的基础上,做了如下注解:1)章节划分;2)注解和参考链接(以蓝色和红色字体标注)。备注:图片可点击查看清晰版。1. 前言应 @龙星镖

2015-12-30 18:02:14 2575

转载 损失函数(Loss Function) -1

http://www.cnblogs.com/rocketfan/p/4083821.html最近在学xgboost,首先得了解gbdt,gbdt是集成回归树,那么回归树是怎么做分类?慢慢搜到这个损失函数,知道boosting里用的损失函数是指数误差,而且也修正了以前的观点,总是知道自己所谓的损失函数是预测和实际值的差等一些损失函数,现在也明白了正则化是加在误差后面,一起构成损失函数,这样貌似

2015-12-29 14:48:43 1127

转载 GBDT(MART) 迭代决策树入门教程 | 简介

原文地址:点击打开链接在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下:              GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初

2015-12-29 11:00:27 469

原创 随机森林建模

在看datacastle的建模大赛,用r写了随机森林的二分类,上次代码用py跑的,虽然跑出来在test上还可以,但是提交不理想啊,这里想用交叉验证,但是跑了一天一夜也木有出来,还是把代码先保留下来吧,希望看到的人指正rm(list=ls())setwd("D:\\competitions\\datacastle\\p2p")train_xtrain_yt

2015-12-28 09:53:38 2819

转载 r语言并行计算(2)----foreach函数

在建模中想使用并行计算,(1)中谈到并行计算,有个foreach函数,但是其中参数并不详细,这里点击打开链接有详细介绍foreach {foreach}foreachPackage:  foreachVersion:  1.4.3Descr

2015-12-24 23:41:05 5036

转载 R语言并行计算(1)

终于知道了r的并行计算,哈哈,希望运行快,转载连接:1点击打开链接2 点击打开链接,这里只粘贴了第二个连接众所周知,在大数据时代R语言有两个弱项,其中一个就是只能使用单线程计算。但是在2.14版本之后,R就内置了parallel包,强化了R的并行计算能力。parallel包实际上整合了之前已经比较成熟的snow包和multicore包。前者已经在之前的文章中介绍过了,而后者无法在win

2015-12-23 16:18:39 1316

原创 关于R语言中set.seed()

在r中取sample时候,经常会有set.seed(某数),经常看见取值很大,其实这里无论括号里取值是多少,想要上下两次取值一样,都需要在每次取值前输入同样的set.seed(某数),才能保证两次取值相同。set.seed(1)x<-rnorm(5)set.seed(1)y这样,x和y的值能保持一致

2015-12-21 22:08:49 9888

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除