自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Hive正则匹配查询基础大全(好文收藏)

前置知识1.常见匹配符号. :匹配所有单个字符,除了换行符(Linux 中换行是 \n,Windows 中换行是 \r\n)^regex : 正则必须匹配字符串开头regex$ :正则必须匹配字符串结尾[abc] : 复选集定义,匹配字母 a 或 b 或 c[abc][vz] :复选集定义,匹配字母 a 或 b 或 c,后面跟着 v 或 z[^abc] :当插入符 ^ 在中括号中以第一个字符开始显示,则表示否定模式。此模式匹配所有字符,除了 a 或 b 或 c[a-d1-7] :范围匹配,

2021-06-24 22:26:02 3963

原创 Hive的lateral view [outer] explode()教程(好文收藏)

写在前面的话,hive的lateral view explode(map/array)函数,常常用于日常的代码中。本篇主要讲解被忽略的outer的作用。===lateral view 与 lateral view outer的区别两者的区别:主要就是当explode函数里传入的数据是否为null,lateral view explode(null) temp as id 时,结果不显示任何数据**(注意是指其他字段的数据也不返回**);lateral view outer explode(null)

2021-06-15 21:11:49 5195 7

原创 硬核!一文搞懂Flink的checkPoint的exactly-once(好文收藏)

Flink的checkPoint原理1.知识前置Flink检查点算法:检查点分界线(Checkpoint Barrier)Flink 的检查点算法用到了一种称为分界线(barrier)的特殊数据形式,用来把一条流上数据按照不同的检查点分开。2.正文开始*2.1.*JobManager 会向每个 source 任务发送一条带有新检查点 ID 的消息,通过这种方式来启动检查点,检查点分界线由 source 算子注入到常规的数据流中,它的位置是限定好的,不能超过其他数据,也不能被后面的数据超过。*2

2021-06-14 09:19:44 538

原创 IDEA之Lombok注解不生效解决方案(好文收藏)

1.前提检查IDEA是否已安装Lombok插件,若没安装,点击安装之后重启IDEA即可2.在java实体类前添加注解遇到问题:在实体类上已经添加@Data、@Builder注解,但是该类的get/set方法报错,提示没有这些方法。解决方案1:按照图示方法,把对钩打上,在点击OK。然后重新去调方法就可以了注意在补个漏:如果是maven工程的话,可以在尝试在pom文件中添加如下依赖<!--lomback 插件依赖--> <dependency>

2021-06-12 12:47:25 3742 2

原创 hive的Json解析大集合(好文收藏)

前文:日常生产环境中,对于埋点上报数据中有json格式的数据,需要解析json格式的字符串里面的字段和数值.对于这种需求,hive系统内置解析json格式的函数.测试:select REGEXP_replace('[{"id":"001","name":"zhangsan","address":"shenzheng"},{"id":"002","name":"zhangsan","address":"shenzheng"}]','\\[|\\]','');结果:{"id":"001","name"

2021-06-07 16:52:23 730

原创 Hive的必常用的系统函数(好文收藏)

标题hive系统函数介绍1.常用日期函数unix_timestamp:返回当前或指定时间的时间戳 select unix_timestamp();select unix_timestamp(“2020-10-28”,‘yyyy-MM-dd’);from_unixtime:将时间戳转为日期格式select from_unixtime(1603843200);current_date:当前日期select current_date;current_timestamp:当前的日期加时间sele

2021-06-06 09:26:46 556

转载 本文一次性说清HIVE的with cube & with rollup & grouping sets用法

表结构CREATE TABLE test (f1 string, f2 string, f3 string, cnt int) ROW FORMAT delimited FIELDS TERMINATED BY '\t' stored AS textfile; LOAD DATA LOCAL inpath '/data/logs/suiyingli/tmp/test.data'...

2021-06-04 17:22:07 439

原创 实际生产中:Hive 合并小文件(强烈建议此法)

背景:实际项目中,小文件的产生会影响hadoop集群的性能;过度使用namenode的内存等;启动过多的map任务,拉低整体Job的运行效率等等弊端

2021-05-31 14:25:09 1161 2

原创 Hive表的非压缩text格式转成ORC+snappy

背景:hive表A,由于创建是text格式的,随着时间历史,该表数据量巨大,急需对该表进行治理方案一:把text格式转成ORC格式,可以大大减低数据存储量z

2021-05-28 15:51:03 1193 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除