自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 资源 (10)
  • 收藏
  • 关注

转载 Python做时间序列预测的11种经典方法

11 Classical Time Series Forecasting Methods in Python (Cheat Sheet)https://machinelearningmastery.com/time-series-forecasting-methods-in-python-cheat-sheet/

2020-12-28 20:29:39 1009

原创 将含时间序列字段的数据集转换为一般的监督学习问题(python)

一、前言: 时间序列算法的局限性一是,可用的算法较少,一般机器学习算法都不适用。无论是单一字段的时间序列还是多元时间序列,在现实场景中可用的算法都比较固定,一般都是(单一ARIMA,多元VARMAX)2种算法的延伸或者变种。二是,应用场景不多,往往都伴随着其他非时间序列的影响因素(如,性别,地区等数值或非数值类型)。二、方法介绍1、时间上的因素拉平标题可能起的不太好,意思很简单,就是将前1天~前n天的数都作为影响因素/字段(需要后几天的同理)。代码如下:###序列特征转监督学习def seri

2020-12-28 20:28:32 651 2

原创 R语言Rwebdriver包的安装办法

问题:最近把R版本升级为4.0.3以后以前很多包都不能用了,原来的安装方法也失效了。网上的安装教程基本也是过期的。(升级后不仅很多包要重新安装,安装后有些原来版本的(3.6版本)函数都不能用了,而关键是网上教程相对叫老或者少,这可能就是为什么R相对Python越来越少的原因之一吧)解决办法:不管什么版本可参看如下步骤的方法,如果老版本可能前面几步就解决了。本人是4.0.3版本。1、以前可安装成功的办法library("devtools")library("githubinstall")inst

2020-12-17 09:01:37 989

原创 用python做线性规划的几种工具包和入门介绍

本文介绍三种常见的python做线性规划的工具包:scipy、pulp、cvxpy,后面2个包也支持整数规划(Integer Program)、01规划(Binary Program)还是混合整数线性规划(MILP)。一、scipy做线性规划1、scipy简单介绍scipy库是个功能很强大的包,可以通过调用optimize.linprog函数解决简单的线性规划:scipy.optimize.linprog(c, A_ub=None, b_ub=None, A_eq=None, b_eq=None,

2020-12-16 13:51:23 6521 2

原创 Python安装cvxpy包的解决办法(不需要专门装 Visual C++ )

背景工作需要用到cvxpy库求解线性规划问题(cvxpy是解决凸优化问题的),发现安装不了,找了很多教程,发现都不是很靠谱,还把我自己的scipy包搞崩溃,很多之前的from scipy import stats这类都出错。现在把我成功安装的经验分享一下。现象安装cvxpy过程中需要scs等包,不会安装成功,你再去安装csc等包时会报没有Microsoft Visual C++ 14.0 (或者C++Build等错误 )。解决办法:1、下载安装C++或者组件后再安装cvxpy相关包。(我本人是WI

2020-12-07 19:35:47 2556 2

原创 时间序列模型步骤教程(ARIMA)

什么是时间序列时间序列简单的说就是各时间点上形成的数值序列,时间序列分析就是通过观察历史数据预测未来的值。在这里需要强调一点的是,时间序列分析并不是关于时间的回归,它主要是研究自身的变化规律的(这里不考虑含外生变量的时间序列)。时间序列的分析的步骤是先对数据进行平稳性和非白噪声检验(如不满足需对数据进行平滑或差分等预处理),然后才是模型调参跟预测,因此本文分为2大部分介绍,答题思路见脑图。一、数据准备&探索1、平稳性序列平稳性是进行时间序列分析的前提条件为什么要满足平稳性的要求呢?在大数

2020-10-29 19:17:17 29208 2

原创 R语言利用igraph和networkD3包快速入门做出炫酷的社交网络图等几类图(老文章重新编辑)。

1、igraph包绘制社交关系图(也有叫知识图谱的)绘图的快速入门技巧是三步:1、看数据源和数据类型,这个一定要弄清楚。2、掌握基本的绘图函数或者直接借用别人的代码,加上第一步对数据源的了解,很容易绘制漂亮图形。3、通过阅读官方文档详细了解函数的参数设定,对图形进行美化。下面我会将一些参数意义都在代码里体现。####igraphlibrary(igraph)#包的安装不叙述了,比较简单###读入数据源data1<-read.graph("http://cneurocvs.rmki.k

2020-09-18 21:20:42 3366 5

原创 hive计算周几函数遇见的结果差1的问题(DATEDIFF和pmod)

因公司的hive版本较低,不支持计算周几的函数dayofweek。只能用pmod(datediff(‘2020-09-17’, ‘1920-01-01’) -3, 7)来计算周几。但是后面发现与pmod(datediff(to_date(‘2020-09-17’), ‘1920-01-01’) -3, 7)返回结果不一致,然后就进行了一些 探索(注,CURRENT_DATE和current_timestamp 是9.17做的)select -- 日期和时间形式的字符串 pmod(

2020-09-18 19:20:36 1619 1

原创 贝叶斯公式的理解(先验后验的区别)和极大似然估计

目录一、贝叶斯公式的理解1、条件概率2、全概率公式3、贝叶斯公式4、先验概率和后验二、极大似然估计例子参考文章:一、贝叶斯公式的理解一直容易把最基础的贝叶斯公式里的概念搞混(主要是先验后验)。先上核心知识,贝叶斯公式是P(B|A)=P(A|B)P(B)/P(A)贝叶斯公式就是当已知结果,问导致这个结果的第i原因的可能性是多少?执果索因!先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现.(一般在计算中已知的原因和结果就是先验)后验概率是指依据得到"结

2020-09-13 01:06:22 5778

原创 xgboost和lightgbm算法总结(从决策树到xgboost)

xgboost和lightGBM在中外各种比赛(如kaggle)中使用频率最多的一种算法之一(若不是最近几年竞赛数据越来越多图片文本语言类数据,甚至可以去掉之一)。xgboost和lightGBM是一个基于树模型的分布式Boosting算法,并不是如逻辑回归,支持向量机等单一的算法模型,因此在介绍xgboost和lightGBM算法前需对比介绍决策树、随机森林、ababoost、GBDT等算法和相...

2020-05-05 22:08:58 4706

原创 Hive分区表新增字段后用MR查询为null的bug及解决方法

1、问题描述最近工作需要,需对近两个月hive分区表增加新的字段(公司平台,hive版本2.*),利用alter table table_name add columns (col_name string ) 新增字段后,向已存在分区中插入数据,结果新增字段的值全部为null。2、问题追溯首先用MR引擎查询为空,结果如下:怀疑是不是数据没有插入,但是看日志明显已经写入成功了;然后换了...

2019-12-28 10:16:15 1156

原创 将mysql中时间类型的字段导入hive中遇到的坑(时间错啦)

一、问题发现与分析问题:用公司的大数据平台(DataX)导数,已经开发上线一个多月的一批报表,突然有同事说有个报表数据不准。出在时间字段上。分析:1、先看了原数据MySQL字段类型为datetime,目标字段为timestamp类型;2、经发现所有时间的差距都是8小时,怀疑是因为时区转换的原因;3、对比其他表,看看是大范围现象还是特殊情况,发现其他的同样情况字段的一样没有问题,也有改变...

2019-11-12 20:45:49 5577

原创 在数据库处理中数字与字符串之间比较的坑(hive VS mysql )

数字与字符串之间比较的坑(hive&mysql )背景MySQLhive背景在工作中遇到了同样的SQL在hive和MySQL执行后所得总数对不上,但是抽样执行都是一致的。最后发现问题出在hive和MySQL在数字和字符串比较时是不一样的。MySQL在MySQL中,字符串和数字比较是自动转化为数字,如果开头没有数字就转化为0:字符串(数值)与数值比较 ,与数值比较没有差别:m...

2019-11-11 20:26:16 7072

原创 Python调用百度地图API批量获取小区的周报配套信息,并存入mysql数据库

一、了解百度地图API1.1 申请百度AK访问百度地图API需要一个信令(AK),打开百度地图开放平台,点击右上角“控制台”,即进入了百度地图的开发界面。 中间填写相关信息申请。 选择“创建应用”-应用类型勾选“浏览器端”–勾选所用到的服务(一般全选即可),此时就创建好了应用账号,得到“AK”。1.2 阅读百度地图API的POI模块打开百度地图API的POI模块,网址:http:...

2018-05-28 20:40:23 5261 3

原创 python导数据到mysql报错OperationalError: (2013, 'Lost connection to MySQL server during query')

一、问题描述 用密码都是可以连接的。之前也是可以连接mysql,突然在大数据量的操作时就报错了。 这个原因很难说,我的原因是协议优先级的问题,也是数据大的问题。 二、解决方法 打开cmd,输入ping localhost 显示的一个【::1】在传输数据。这是因为你的电脑优先使用了ipv6来解析localhost。只有用ipv4的时候才会解析到127.0.0.1上去。 解决办法: ...

2018-05-16 19:08:27 16267 2

原创 利用Python爬取安居客中小区数据,并将结果导入msql数据库

1、背景工作需要,需要获取安居客房地产相关数据;之前用的R语言爬取经纪人数据,没有采用浏览器模拟抓取。本文使用Python采用浏览器模拟抓取,相应包的安装都不难,不叙述,直接附上代码。2、代码from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom bs4 import B...

2018-05-04 18:48:33 7315

原创 python导数据到mysql报错OperationalError: (2006, 'MySQL server has gone away')

报错内容: OperationalError: (2006, ‘MySQL server has gone away’)报错原因:导入的数据超过单次的默认量。即超过 max_allowed_packet。参数值解决办法:1、修改语句,分批导入; 2、调整参数:#查看默认参数值mysql&gt; show global variables like 'max_allowed_pac...

2018-05-04 18:34:10 5299

原创 利用R语言爬取安居客中经纪人数据,并将结果导入msql数据库

1、背景工作需要,需要获取安居客房地产相关数据;本文直接附上代码和注释。本文没有采用浏览器模拟抓取(参考之前文章),因为页面没那么复杂,不需要刻意用浏览器,并且用浏览器会降低速度。2、代码setwd('E:/study/code/RModeling')library(XML)library(RMySQL)#结果写进数据库需要library(stringr)#经纪人页面,其实...

2018-04-28 15:32:43 2484

原创 hive执行语句优化

一、类SQL语句优化1、跟SQL基本一致的优化原则1.1 尽量原子化操作尽量避免一个SQL包含复杂逻辑,可以使用中间表来完成复杂的逻辑。1.2 尽量尽早地过滤数据尽量先where筛选后再join,减少每个阶段的数据量,对于分区表要加分区条件,只选择需要使用到的字段。1.3 表链接时尽量使用相同的连接键当对3个或者更多个表进行join连接时,如果每个on子...

2018-04-16 16:58:39 4104

原创 在集群上的pyspark中配置ipython notebook,实现网页远程调用。

接着之前的在服务器上远程网页调用python,现实中,大数据集无法单服务器处理时,需要调用集群的pyspark,又需要图形显示和脚本运行调试等的方便性,这时也可以类似服务器远程使用ipython notebook一样。 前提是集群上已经安装了pyspark和ipython notebook,我自己的是已经安装了Anaconda。在此只说配置。基本安装步骤:1、首先创建一个与PyS...

2018-03-11 16:20:09 3691 3

原创 深度学习常见算法的介绍和比较

很多人都有误解,以为深度学习比机器学习先进。其实深度学习是机器学习的一个分支。可以理解为具有多层结构的模型。具体的话,深度学习是机器学习中的具有深层结构的神经网络算法,即机器学习>神经网络算法>深度神经网络(深度学习)。 关于深度学习的理论推导,太大太复杂,一些常见的深度学习算法本人也是模模糊糊的,看过好多次的,隔断时间就会忘记,现在对其系统的整理一下(从历史,致命问题出发,再看具体算法的思想,

2018-02-08 22:00:06 122977 4

原创 linux下python安装(Anaconda)和ipython远程服务器链接配置

基本安装步骤:1、下载软件 wget https://repo.continuum.io/archive/Anaconda3-5.0.1-Linux-x86_64.sh2、安装,一直enter 或者yes 即可。 bash Anaconda3-5.0.1-Linux-x86_64.sh 3、输入python 检验是否安装成功 如果之前有不同python版本,卸载,或者直接 sou

2018-02-05 21:51:49 4905

原创 向CDH集群增加虚拟机节点平衡数据操作

注:前提是已经有了新的虚拟机节点和安装了相应的cdh,修改主机名,ip,mac等操作自行百度哈。本文只对已经安装好cdh的虚拟机节点加入集群平衡数据操作。1、查看虚拟机 virsh list -all2、修改虚拟机的配置(CPU、内存、磁盘) 切换到相应虚拟机目录下 cd /ecars/vm/cdhslave07 vim libvirt.xml3、去掉和定义虚拟机 虚拟机名称

2018-02-05 21:50:10 3379

转载 机器学习中的范数规则化L0、L1与L2范数

机器学习中的范数规则化L0、L1与L2范数[email protected]://blog.csdn.net/zouxy09        今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些

2018-01-29 22:36:08 2463

原创 scala入门学习(5)函数和闭包

一、函数1、函数的声明定义和调研函数是一组一起执行一个任务的语句。 Scala 有函数和方法,二者在语义上的区别很小。Scala 方法是类的一部分,而函数是一个对象可以赋值给一个变量。换句话来说在类中定义的函数即是方法。 我们可以在任何地方定义函数,甚至可以在函数内定义函数(内嵌函数)。更重要的一点是 Scala 函数名可以有以下特殊字符:+, ++, ~, &,-, – , , /

2018-01-24 10:54:34 2536

原创 scala入门学习(4)列表List-集合Set-映射Map等

一、列表List1、List类型定义及List的特点Scala 列表类似于数组,它们所有元素的类型都相同,但是它们也有所不同:列表是不可变的,值一旦被定义了就不能改变,其次列表 具有递归的结构(也就是链接表结构)而数组不是。//字符串类型Listscala> val fruit=List("Apple","Banana","Orange")fruit: List[String] = List(A

2018-01-16 15:40:51 4891

转载 机器学习中的维度灾难

一、介绍本篇文章,我们将讨论所谓的“维度灾难”,并解释在设计一个分类器时它为何如此重要。在下面几节中我将对这个概念进行直观的解释,并通过一个由于维度灾难导致的过拟合的例子来讲解。考虑这样一个例子,我们有一些图片,每张图片描绘的是小猫或者小狗。我们试图构建一个分类器来自动识别图片中是猫还是狗。要做到这一点,我们首先需要考虑猫、狗的量化特征,这样分类器算法才能利用这些特征对图片进行分类。例如我们可以通

2018-01-09 15:38:39 3786

原创 scala入门学习(3):数组

一、数组1、定长数组Scala 数组声明定长的语法格式如下:var z:Array[String] = new Array[String](3)或var z = new Array[String](3)示例://定义一个长度为10的数值数组val a=new Array[Int](10)//定义一个长度为10的String类型数组val b=new Array[String](10)//可以看出

2018-01-02 11:38:32 3196 1

原创 scala入门学习(2):控制结构

一、IF…ELSE 判断语句1、if 语句语法格式如下:if(布尔表达式){ // 如果布尔表达式为 true 则执行该语句块}例如:var x = 10;if( x < 20 ){ println("x < 20");}2、if…else 语句语法格式如下:if(布尔表达式){ // 如果布尔表达式为 true 则执行该语句块}else{ // 如果布尔表达式为

2017-12-26 17:19:48 2871

原创 scala入门学习(1)基础篇

一、scala变量1、变量声明在 Scala 中,使用关键词 “var” 声明变量,使用关键词 “val” 声明常量。 变量: 在程序运行过程中其值可能发生改变的量叫做变量。如:时间,年龄。 常量 在程序运行过程中其值不会发生变化的量叫做常量。如:数值 3,字符’A’。val a:Int = 1val str:String = 2【注】:scala的变量或函数的类型总是写在变量或函数的后面。在

2017-12-22 16:43:41 3005

原创 hive表复制和HDFS回收站清除

hive表复制1、非分区表的复制create table t_copy as select * from t_temp;跟一般sql语句一样。2、分区表的复制先复制源表的表结构create table t_copy like t_part;再插入分区数据,如:insert overwrite table t_copy partition(year,month)select id,name,o

2017-12-11 10:34:22 8409

转载 神经网络和深度学习简史(全)

神经网络和深度学习简史(全)Eileen• 2017年11月11日 • 深度学习 • 阅读 352 如今,深度学习浪潮拍打计算机语言的海岸已有好几年,但是,2015年似乎才是这场海啸全力冲击自然语言处理(NLP)会议的一年。 深度学习掀起海啸如今,深度学习浪潮拍打计算机语言的海岸已有好几年,但是,2015年似乎才是这场海啸全力冲击自然语言处理(N

2017-12-04 14:54:00 9544

原创 用来评估模型好坏的方差和偏差的区别对比

一、基本概念上的对比解释1、偏差Bias:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,对象是单个模型。 2、方差Variance:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,对象是多个模型在忽略噪声的情况下,泛化误差可分解为偏差、方差两部分。 偏差:度量学习算法的期望预测与真实结果的偏离程度,也叫拟合能力。 方差:度量

2017-11-30 11:47:20 10552 1

原创 各种聚类算法的介绍和比较

一、简要介绍1、聚类概念聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。2、聚类和分类的区别聚类技术通常又被称为无监督学习,因为与监督学习不同,在聚类中那些表示数据类别的分类或者分组信息是没有的。Clustering (聚类),

2017-11-15 15:25:00 132329 19

转载 Git的介绍、安装和使用

关于git的介绍和使用,我目前见过的最全面仔细的文章:https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000/0013743858312764dca7ad6d0754f76aa562e3789478044000另外,基本的Rstuido的安装。见下,http://bl

2017-11-15 09:08:47 1912

原创 sqoop在MySQL和hive间导数遇见的几种问题

无论是新版本,还是老版本,遇到的问题大部分都是相同的。下面解决问题的方法仅供借鉴1.拒绝连接的错误表现是什么?2.表不存在该如何解决?3.null字段填充符该如何指定?最近利用sqoop在MySQL和hive间相互导数时遇见如下几种问题:1、ip相互能够ping通,但是mysql拒绝hive的访问(已经用了root权限)。该问题出在mysql的权限设定上,一般本地电

2017-10-31 22:59:32 3581

转载 一文读懂Hive分析窗口函数(hive做累计、分组、排序、层次等计算)

分析窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询Hive分析窗口函数(一) SUM,AVG,MIN,MAXHive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的

2017-10-31 22:26:47 35313

转载 决策树、装袋、提升和随机森林

决策树是一种简单、常用的基础模型。之所以说它简单,不仅因为它的思想原理简单具体、贴近实际,它并不需要像线性回归模型一样用一个数学公式来表征,而是由规则来抽象。说它基础,是因为它是一系列复杂强大的模型的基础。决策树的基本思想是通过将数据不断划分,使原来混乱的数据信息逐渐清晰。举一个简单的例子:如果你去相亲,你可能以外貌为第一特征来决定是否继续往下考虑;如果外貌过关了,你可能还会考虑职位和收入水平

2017-10-24 10:40:03 6081

转载 一文读懂大数据计算框架与平台

1. 前言计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负荷的分配,计算机之间的数据迁移等工作,

2017-09-29 14:16:41 2735

转载 Hive基础sql语法

1.DDL 操作1.建表2.3.创建简单表4.创建外部表5.建分区表6.建Bucket表7.创建表并创建索引字段ds8.复制一个空表9.显示所有表10.按正条件正则表达式显示表11.修改表结构12.表添加一列 13.添加一列并增加列字段注释14.更改表名15.删除列16.增加删除分区17.重命名表18.修改列的名字类型位置注释19.表添加一列 20.添加一列并

2017-08-03 10:53:14 2682

Microsoft Visual C++ 14.0.zip

Microsoft Visual C++ 14.0.zip

2020-12-07

Lingo3.lg4|Lingo3.lg4

Lingo3.lg4

2020-11-24

算法比赛数据数据数据.zip|算法比赛.zip

算法比赛数据数据数据.zip

2020-11-20

test0923.csv

时间序列数据源,博客内数据源,时间序列数据源,博客内数据源时间序列数据源,博客内数据源时间序列数据源,博客内数据源

2020-10-21

singers-sub.csv

数据,R语言利用igraph和networkD3包快速入门做出炫酷的社交网络图等几类图。 R语言利用igraph和networkD3包快速入门做出炫酷的社交网络图等几类图。

2020-09-18

gbdt到xgboost的一些理论推导.rar

一位大神写的推导课件,gbdt到xgboost的一些理论推导。免费分享,欢迎下载,欢迎下载欢迎下载欢迎下载

2020-05-05

vim_command

vim_command vim命令

2017-07-24

信用卡评分模型源数据

信用卡评分模型源数据

2017-07-19

《Automated_Data_Collection_with_R》R语言爬虫教程(英文原版)

R语言爬虫教程

2017-05-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除