自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (2)
  • 收藏
  • 关注

转载 hive 常用日期格式转换

固定日期转换成时间戳select unix_timestamp('2016-08-16','yyyy-MM-dd') --1471276800select unix_timestamp('20160816','yyyyMMdd') --1471276800select unix_timestamp('2016-08-16T10:02:41Z', "yyyy-MM-dd'T'HH:mm:ss'Z'") --147131296116/Mar/2017:12:25:01 +0800 转成正常格式(yyyy

2021-03-08 11:18:47 277

原创 max(),min()函数的用法总结

1.数值型2.字符串3.日期型参考:https://www.cnblogs.com/kuangwong/p/8027733.html

2020-04-09 14:20:38 3215

原创 Hadoop安装攻略

** ## Hadoop安装攻略 **1. 超强安装教程:http://dblab.xmu.edu.cn/blog/285/2. 我的安装示例:**第一步:**安装VirtualBox虚拟机软件首先检查BIOS是否开启CPU的虚拟化,我的电脑是开启了的,检查步骤可根据自己电脑型号百度经验;主要就是在电脑开机的时候有个提示“是否选择按enter阻止正常开机”,然后点击enter就可以了*...

2020-03-24 01:24:42 192

原创 IDEA从安装到使用git

日常记录自己安装过程,备忘~1.安装最全攻略(试用新手小白,我就是哈哈)之前百度了很多,安装过程中也出错了好几次这个链接是详细简单的了,适合IDEA2019.3.X版本的,但是稍微要知识付费,不到10元,很划算的,不是广告哈(可以看下面的链接,不想付费的,也可以找我要注册嘛,安装教程啥的,反正都买了,分享啦)https://www.jianshu.com/p/e2a935856ebd2....

2020-03-24 01:19:26 136

原创 Hive——数据定义

1 hive中的数据库基本语句:hive> create database if not exists students;hive> show database like ‘students*’hive>describe database students;hive>drop database students;–删除2.管理表与外部表3.分区表与管理表...

2019-11-22 15:09:54 83

原创 Hive——Hiveql:视图

1.使用视图来降低查询复杂度可以将多层嵌套子查询的语句改写成视图来降低复杂度select * from(select * from a left join b on a.id=b.id )mwhere m.id=3等价于create view m as select * from a left join b on a.id=b.id select * from m我的理解:相...

2019-11-22 14:40:25 132

原创 Hive——sql查询

1.简单查询select * from table1.1正则表达式指定列select a,b.* from table;1.2使用列值进行计算类似筛选where子句,会在查询的结果中增加一列,显示false和trueselect a,b>5 from table;1.3算数运算符1.4使用函数数学函数聚合函数1.5表生成函数可以将单列扩展成多列或者多行,hive...

2019-11-21 14:16:58 1088

原创 Hive——数据类型和文件格式

1.基本数据类型2.集合数据类型3.文本文件数据编码参考:https://blog.csdn.net/amin_hui/article/details/82218715

2019-11-21 11:32:34 93

原创 hive——基础知识

1.专有名词MapReduce:MapReduce是一种计算模型,改模型可将大型数据处理任务分解成很多个单个的、可以在服务器集群中并行执行的任务。这些任务的计算结果可以合并在一起来计算最终的结果。1)MapReduce是面向大数据并行处理的计算模型、框架和平台。2)MapReduce是一个并行计算与运行软件框架(Software Framework)3)MapReduce是一个并行程序设...

2019-11-13 16:21:20 259

原创 pyhton爬虫——网页下载器:urllib库的学习

方法1:直接传给urlopen方法resp=urllib.request.urlopen("http://www.baidu.com")#直接请求print(resp.getcode())#获取状态码,200表示成功#或者str = resp.read()#print(str)方法2:添加data、httpheader,然后传送给request方法resp2=urllib.req...

2019-03-25 15:52:25 107

转载 SQL 查询表格的转换,列转行与行转列

栗子:将下面右表转换成左表的形式SELECT SN,MAX(CASE WHEN Field_Name='BL1_Ver' THEN Field_Value END) BL1_Ver,MAX(CASE WHEN Field_Name='BL2' THEN Field_Value END) BL2,MAX(CASE WHEN Field_Name='BL3' THEN Field_Value ...

2019-03-25 15:51:34 480

原创 EXCEL——排序sumproduct函数

例子:按照不同科目将分数排序1、排名1=SUMPRODUCT(($A$2:$A$19=A2)*($C$2:$C$19>C2))+12、排名2=SUMPRODUCT((A:A=A2)*(C:C>C2))+13、排名3=SUMPRODUCT(($A$2:$A$19=A2)*($C$2:$C$19<C2))+1...

2019-01-08 11:05:21 8005 2

转载 sql已知两点经纬度,求在球面的距离

round(6378.138*2*asin(sqrt(pow(sin((lat1*pi()/180-lat2*pi()/180)/2),2)+cos(lat1*pi()/180)*cos(lat2*pi()/180)* pow(sin((lng1*pi()/180-lng2*pi()/180)/2),2)))*1000) as eta链接:https://www.jianshu.com...

2019-01-08 11:05:03 727

转载 R导入数据

readxl包 #下载和引用install.packages("readxl")library(readxl) #读取Excelread_excel("old_excel.xls")read_excel("new_excel.xlsx") #sheet参数,指定sheet名或者数字read_excel("excel.xls",

2019-01-08 11:04:18 227

原创 在where子句中使用case when函数

CASE WHEN 其实相当于产生了一个列,最后WHERE 再按那个列来限定SELECT * AS A FROM TB WHERE CASE WHEN 1=1 THEN 1 ELSE 0 END =1等价于SELECT * FROM (SELECT * ,CASE WHEN 1=1 THEN 1 ELSE 0 END AS A FROM TB) T WHERE A=1...

2018-12-18 23:57:50 10568

原创 微博评论爬虫——安装rwda包

1.方法一:install.packages("devtools")library(devtools)library(RCurl)library(bitops)library(rjson)library(jiebaR)library(jiebaRD)library(wordcloud2)library(sm)library(vioplot)library(curl)libr...

2018-12-12 13:44:40 690

原创 R语言爬虫实践(下):练习笔记1

##练习1:我爱我家二手房数据爬取#加载所需的包rm(list=ls())library(xml2)library(rvest)library(dplyr)library(stringr)#对爬取页数进行设定并创建数据框i<-1:10house_inf<-data.frame()#使用for循环进行批量数据爬取(发现url的规律,写for循环语句)for (i...

2018-12-03 11:32:08 328

转载 R语言爬虫实践(上):二手房数据采集

主要参考文章:[1][https://www.jianshu.com/p/c092d57d275f][2]https://blog.csdn.net/u013421629/article/details/76803903?locationNum=8&fps=1gurl <- "http://sh.ganji.com/wblist/jingan/ershoufang/pn2/"g...

2018-12-03 11:27:55 2068

原创 R语言:rvest包爬虫学习笔记

参考,文中较为详细,本文结合该文章进行实践,主要还是学习,哈哈~~1.网页基础知识可以参考用python爬虫学习笔记中的第一节或者直接参考该网址2.rvest用法简介下面对rvest包中的主要函数的功能做一下说明:read_html() 读取html文档的函数,其输入可以是线上的url,也可以是本地的html文件,甚至是包含html的字符串也可以。html_nodes() 选择提取文档...

2018-11-25 19:59:55 1260

原创 2.requests两种方式的简单实践(上)

2.1.get方式获取单页面数据eg:如我们想获取中国旅游网站的首页所有的标题和链接方法1:get方式pip install requests #安装requests库import requests #加载库url='http://www.cntour.cn/' #以中国旅游网站为例strhtml=requests.get(url) #此时strhtml只是一个url对象...

2018-11-25 19:59:44 494 1

原创 1.认识网页结构和基本爬虫原理

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2018-11-25 19:58:44 260

tableau数据源.zip

Tableau地图数据源,包括autonavi.tms;ESRI Nat Geo World Map;ESRI World Imagery等14个地图数据源,可直接导入tableau地图库中

2019-06-24

上海地铁线路.xlsx

excel数据,有上海线路、站点和站点的经纬度,可绘制上海地铁线路

2019-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除