- 博客(121)
- 收藏
- 关注
原创 Hive练习题之流量统计
需求: 统计每个用户各时间段的流量总计(相隔不超过10分钟的算在一起)数据源:1,2020-02-18 14:20:30,2020-02-18 14:46:30,201,2020-02-18 14:47:20,2020-02-18 15:20:30,301,2020-02-18 15:37:23,2020-02-18 16:05:26,401,2020-02-18 16:06:27,2020-02-18 17:20:49,501,2020-02-18 17:21:50,2020-02-18 18
2022-02-09 13:28:47 1095
原创 Hive练习题 字符串与时间类型转换
参考文章:https://blog.csdn.net/a805814077/article/details/115014708概念:时间戳也就是timestamp,是hive中的一种数据类型,与unix_timestamp不是一个概念unix_timestamp可以直接将timestamp转成毫秒(即1970-1-1至今的秒), 也可以将字符串转成毫秒,但需要指定字符串格式from_unixtime可以将unix_timestamp转成timestamp,也就是时间戳to_utc_ti
2022-02-08 15:30:35 1763
原创 HQL练习题之连续n天
数据源guid01,2018-02-28guid01,2018-03-01guid01,2018-03-02guid01,2018-03-04guid01,2018-03-05guid01,2018-03-06guid01,2018-03-07guid02,2018-03-01guid02,2018-03-02guid02,2018-03-03guid02,2018-03-06建表create table if not exists test.tb_login (uid stri
2022-02-08 14:29:41 2428 2
原创 Hive练习题之窗口函数构造辅助列
建表create table if not exists test.tb_ab(A string,B int)row format delimited fields terminated by ",";导入数据vim /doit/tb_ab2010,12011,12012,12013,02014,02015,12016,12017,12018,02019,0load data local inpath "/doit/tb_ab" into table test.tb_
2022-02-08 13:59:43 525
原创 Hive排序函数 row_number rank dense_rank
row_numer():按查出的记录数前后排序,序号不重复。即第1条记录序号为1,第2条记录序号2,第3条记录序号为3(不考虑3条记录的排序字段是否重复)。rank():跳跃排序,排序字段值相同的序号相同。例如3条记录中前2条排序字段值相同,第3条不同,则前3条记录的排序号为1,1,3。dense_rank():连续排序。例如前4条记录中,1和2的排序字段值相同,3和4的排序字段值相同,则4条记录的排序号为1,1,2,2。...
2022-02-08 13:26:42 778
原创 Hive练习题之行转列(二)
需求:+-------------+---------------+-----------------+----------------+---------------------+------------------+| student.id | student.name | student.gender | student.birth | student.department | student.address |+-------------+---------------+-----
2022-02-08 11:04:21 199
原创 Hive练习题之炸裂函数+case when+ 模糊匹配
– 建表create table if not exists test.tb_str(id int,str string)row format delimited fields terminated by ",";– 导入vi /doit/tb_str.txt1,hello2,world3,sun4,doorload data local inpath "/doit/tb_str.txt" into table test.tb_str;– 解法with tmp as .
2022-02-08 10:53:09 738
原创 Hive练习题之用户访问次数
有如下的用户访问数据 tb_visituserId visitDate visitCount u01 2017/1/21 5u02 2017/1/23 6u03 2017/1/22 8u04 2017/1/20 3u01 2017/1/23 6u01 2017/2/21 8u02 2017/1/23 6u01 2017/2/22 4
2022-02-08 10:33:07 451
原创 Hive练习题之炸裂函数(二)
建表drop table test.explode_lateral_view;create table test.explode_lateral_view(`area` string,`goods_id` string,`sale_info` string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '|'STORED AS textfile;源数据a:shandong,b:beijing,c:hebei|1,2,3,4,5,6,7,8,9|[{"
2022-02-08 10:23:53 458
原创 Hive练习题之炸裂函数(一)
数据源Jack,male,eat-play,北京:海淀-上海:浦东Miso,male,eat-net-play,河北:保定-北京:海淀小明,male,eat-net,河北:张家口-上海:浦东小红,male,net-play,河北:保定-北京:海淀Lily,female,eat-net,河北:保定-北京:海淀Lucy,female,play-eat,北京:海淀-上海:浦东Jack,male,eat-net-play,河北:保定-北京:海淀Miso,male,online-net-eat,河北:
2022-02-08 10:18:28 535
原创 Hive练习题之炸裂函数+窗口函数+列转行
数据源name scores张三 语文:78,数学:90,英语:82,历史:77,政治:80,物理:88,化学:79,地理:92,生物:86李四 语文:68,数学:84,英语:79,历史:65,政治:66,物理:78,化学:72,地理:83,生物:75王五 语文:88,数学:69,英语:86,历史:82,政治:70,物理:68,化学:89,地理:95,生物:93朱六 语文:73,数学:76,英语:73,历史:76,政治:75,物理:85,化学:86,地理:85,生物:90钱二 语文:68,数学:
2022-02-08 10:10:10 274 1
原创 Hive调优(自用)
转载:https://zhuanlan.zhihu.com/p/80718835针对于Hive内部调优的一些方式01.请慎重使用COUNT(DISTINCT col);原因:distinct会将b列所有的数据保存到内存中,形成一个类似hash的结构,速度是十分的块;但是在大数据背景下,因为b列所有的值都会形成以key值,极有可能发生OOM解决方案:所以,可以考虑使用Group By 或者 ROW_NUMBER() OVER(PARTITION BY col)方式代替COUNT(DISTINCT
2022-02-07 14:54:19 96
原创 Hive练习题之列转行
源数据+-----------+-------+-------+-------+| grade_id | yw | sx | zz |+-----------+-------+-------+-------+| 1 | 98.0 | 0.0 | 0.0 || 2 | 0.0 | 80.0 | 78.0 || 5 | 88.0 | 66.0 | 99.0 |+-----------+-------+---
2022-02-07 14:18:32 332
原创 flink通过ProcessFunction和定时器onTimer实现一个窗口累加的功能
import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.state.ValueState;import org.apache.flink.api.common.state.ValueStateDescriptor;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.configura..
2022-01-08 11:06:24 695
原创 flink使用ListState实现KeyedState
测试数据user1,Auser1,Buser1,Cuser2,Auser2,Buser2,Dimport org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.api.common.state.ListState;import org.apache
2021-12-25 22:37:06 125
原创 flink使MapState实现KeyedState
测试数据辽宁省,沈阳市,1000辽宁省,大连市,2000辽宁省,沈阳市,1500湖南省,长沙市,1200湖南省,长沙市,1000湖南省,常德市,4000湖南省,常德市,3000import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.api
2021-12-25 22:18:53 207
转载 maven打包插件(把依赖打入jar包)
<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <configuration> <source>1.8</source> <.
2021-11-19 11:22:04 1057
原创 spark遇到的坑(一)scala调用json4s报错[java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lor
没有引入正确的依赖版本经测试 spark2.4 引入 3.6.7 的版本不会报错<dependency> <groupId>org.json4s</groupId> <artifactId>json4s-native_2.11</artifactId> <version>3.6.7</version></dependency>参考其他回答:https://blog.csdn.n
2021-10-22 14:03:51 687
原创 cmd 查看占用端口号的进程并杀掉
//查找8010端口netstat -ano|findstr 8010TCP 0.0.0.0:8010 0.0.0.0:0 LISTENING 2132TCP 160.19.14.68:54487 168.61.10.136:18010 ESTABLISHED 2132TCP [::]:8010 [::]:0 LISTENING 21
2021-10-20 18:15:57 129
原创 idea安装scala插件(仅作留存)
有两种安装方式:1、在线安装File——Settings——Plugins——搜索scala点击install(可能速度很慢),然后重启idea2、离线安装去scala官网直接下载scala相应的版本https://plugins.jetbrains.com/plugin/1347-scala参考文章https://www.cnblogs.com/zhaojinyan/p/9524296.html...
2021-10-15 11:13:27 153
原创 python安装离线包
有时候pip安装时,会报下面的错Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(<pip._vendor.urllib3.connection.VerifiedHTTPSConnection object at 0x00000000056045C8>, 'Connection to pypi
2021-07-12 11:35:53 556
原创 mysql中指定一个获取当前时间戳的字段
需求:mysql创建一个带有时间戳字段的表,如果修改了表中数据,该表中的时间戳字段跟着改变解决:-- 建表语句CREATE TABLE `t1` ( `p_c` int(11) NOT NULL, `p_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP) ENGINE=InnoDB DEFAULT CHARSET=gb2312 -- DEFAULT CURRENT_TIMESTA
2021-05-27 11:26:51 309
原创 不用窗口函数 求出连续出现连续登录问题
参考:https://www.5axxw.com/questions/content/q3dy0n-- 建表导入数据create table logs (Id int, Num int);INSERT INTO `logs` VALUES (1,1),(2,1),(3,1),(4,2),(5,1),(6,2),(7,2),(8,3),(9,4),(10,1),(11,1),(12,1);求连续三次出现的数字select distinct l1.num as ConsecutiveNums fr
2021-04-22 16:31:35 259
原创 mysql 列转行 练习题
mysql解法:select a.id, a.str, substring_index( substring_index( a.keys, ';', b.help_topic_id + 1 ), ';',- 1 ) as `key`from (select id, str, case when str like "%e%o%" then 'e;o' when str like "%o%" then 'o' when str like "%e%" then 'e' e.
2021-04-13 10:48:58 79
原创 mysql查看创建修改导出 存储过程
存储过程查看:MySQL查看存储过程创建:MySQL创建存储过程修改:MySQL修改存储过程导出:MySQL导出存储过程
2021-03-24 11:44:08 58
原创 java之http协议&Response对象&ServletContext对象
今日内容1. HTTP协议:响应消息2. Response对象3. ServletContext对象HTTP协议:1. 请求消息:客户端发送给服务器端的数据 * 数据格式: 1. 请求行 2. 请求头 3. 请求空行 4. 请求体2. 响应消息:服务器端发送给客户端的数据 * 数据格式: 1. 响应行 1. 组成:协议/版本 响应状态码 状态码描述 2. 响应状态码:服务器告诉客户端浏览器本次请求和响应的一个状态。 1. 状态码都是3位数字
2021-02-10 20:23:55 68
原创 java之cookie&session
会话技术1. 会话:一次会话中包含多次请求和响应。 * 一次会话:浏览器第一次给服务器资源发送请求,会话建立,直到有一方断开为止2. 功能:在一次会话的范围内的多次请求间,共享数据3. 方式: 1. 客户端会话技术:Cookie 2. 服务器端会话技术:SessionCookie:1. 概念:客户端会话技术,将数据保存到客户端2. 快速入门: * 使用步骤: 1. 创建Cookie对象,绑定数据 * new Cookie(String name, String value)
2021-02-10 20:18:41 113
原创 Java之Servlet&&Request&&Respones
Servlet1. 概念2. 步骤3. 执行原理4. 生命周期5. Servlet3.0 注解配置6. Servlet的体系结构 Servlet -- 接口 | GenericServlet -- 抽象类 | HttpServlet -- 抽象类 * GenericServlet:将Servlet接口中其他的方法做了默认空实现,只将service()方法作为抽象 * 将来定义Servlet类时,可以继承GenericServlet,实现service()方法即可 *
2021-02-05 22:19:17 99
原创 jdbc入门 插入语句
package cn.itcast.jdbc;import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException;import java.sql.Statement;/** * @Author: Zhang * @Description: * @Date: Created in 16:41 2020/12/27 * @Modified By: */public class Jdb
2020-12-27 21:12:56 553
原创 jdbc入门 连接mysql执行简单语句
package cn.itcast.jdbc;import java.sql.Connection;import java.sql.DriverManager;import java.sql.Statement;/** * @Author: Zhang * @Description:JDBC快速入门 * @Date: Created in 15:18 2020/12/27 * @Modified By: */public class JdbcDemo1 { public st
2020-12-27 15:58:55 69
原创 linux文件按照时间排序
ls -alct # 按创建时间排序也可以写为:ll -actls -alut # 按访问时间排序也可写为:ll -aut
2020-12-06 22:50:38 1344
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人