自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Flink onYarn 提交报错处理

flink on yarn 报错解决

2023-12-15 15:17:10 86

转载 Flink SQL Checkpoint 学习总结

大概原因是因为写文件、生成commit的动作实在coordinator里面,只有当checkpoint完成后才会调用coordinator,所以不设置checkpoint就不会生成commit,这里的逻辑是在Hudi源码里(具体没看),也就是说checkpoint和生成hudicommit是绑定一起的,这样才能保证流写Hudi的事务性,这样才能保证checkpoint的EXACTLY_ONCE。MySQL数据量一致,且更新时间和插入时间一致,代表id=1、2的数据重启时没有重复消费,达到了预期效果。

2023-07-07 09:37:53 746 1

转载 Java——时间日期格式化

Java 日期格式化

2023-01-11 12:28:12 487

转载 JDBC工具类

方式一、public class JDBCUtil_v1 { /* * 获取连接方法 */ public static Connection getConnection() { Connection conn = null; try { //加载驱动 Class.forName("com.mysql.cj.jdbc.Driver"); /* user是数据库名

2022-03-18 17:52:31 113

转载 Spark读写Oracle性能深度调优

Spark作为一个分布式计算框架,可以很好的适用于Hadoop。那么Spark是否可以与关系型数据库较好的进行兼容呢?以Spark作为计算,以关系型数据库(例如Oracle)作为存储?  答案当然是可以,笔者经过不断地测试和优化,终于将Spark与Oracle进行了兼容匹配与读写优化。1、环境准备  在本次测试环境中,用6台机器搭建了CDH的Hadoop平台,Spark2.2版本搭配Yarn进行资源分配。  Spark通常采用JDBC来读写Oracle,所以在Spark环境下需要确保包含了JDBC包

2022-02-15 16:42:50 2533

原创 腾讯云MR任务调度同步

1、首先创建一个workflow工作流,拖取HiveServer2 和Sub-workflow 控件HiveServer2控件针对Hsql脚本,Sub-workflow复用Shell sqoop同步脚本如图:2、shell sqoop同步脚本参考1,拖取shell 脚本控件,如图这里涉及到参数传递以及环境设置特别是FILE那块的设置3、shell脚本如下:#!/bin/bash...

2019-10-12 17:38:30 205

原创 hive往mysql迁移数据sqoop报错注意事项

最近在帮同事迁移数据的时候sqoop老是报错,错误也不明显,在网上搜了一圈也没找,然后自己根据错误一步一步进行了排查,最终找到了原因,看到数据、表字段类型以及迁移表名是才恍悟,在做数据同步时一定要心细一些,不然问题五花八门错误如下:[root@master ~]# sqoop export --connect “jdbc:mysql://172.23.20.142:3306/tds?useUn...

2019-10-09 15:28:54 1470

原创 Hue 调度出现乱码问题

最近BI反馈数据有问题,排查了下发现是业务的BUG导致的,重新调整了代码,在重新跑数据的时候,需要把业务上的测试数据过滤掉,然后在where条件后加了个过滤条件,而过滤条件是中文,在执行语句的时候,sql也不报错,但是测试数据还在,在后台手工跑数据是能过滤掉的,排查了下原因出在平台上,平台的字符不是默认UTF8,在把sql提交到yarn执行时中文变成了乱码不识别,自然过滤条件不就生效了,需要指定参...

2019-09-04 16:32:15 1371 7

原创 hive array与struct使用

最近在处理流式数据在读取redis的时候很慢,主要原因是查redis的时候用的模糊查询,key是使用svn提交的代码路径,而每来一条记录都要取redis查一遍,这样性能就会很差,查询字段是类名(例如:SbRollBackHandle.java),为了不使用模糊查询,线下基于hive svn log进行了分析寻找合适的key,驱动业务调整日志打印格式;在分析svn log的时候发现用了一些复杂的结构...

2019-08-06 17:10:01 790

原创 spark on yarn 中文乱码

最近接了个云端日志项目,Logstash采集日志,抛到kafka集群,有sparkstreaming进行数据转,根据className查询redis获取相关提交人以及日期带出来,抛到rocketmq供其他部门使用,细节省略;在spark-submit 提交代码到集群或者客户端运行的时候出现乱码,遇到这种情况,想到的就是编码问题,因为在在本地运行spark streaming是可以处理中文的,放...

2019-08-02 16:01:40 2659 1

原创 Hue提交Job异常报错

2018-09-17 16:32:13,686 INFO ActionStartXCommand:520 - SERVER[172.16.5.200] USER[hadoop] GROUP[-] TOKEN[] APP[My Workflow] JOB[0000004-180917163013421-oozie-hado-W] ACTION[0000004-180917163013421-ooz...

2018-10-26 15:41:42 1790

原创 Job hold原因排查

公司最近搭建了一套hadoop大数据测试环境,使用的都是默认参数,在提交hive任务的时候老是hold,针对这种现象在yarn WebUI界面查看日志;页面如图:日志内容如下:2018-09-14 10:00:06,939 INFO [ContainerLauncher #0] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLau...

2018-10-11 17:37:09 1625

原创 Hive 多列转行 (if函数)

最近有个项目需要做数据导出(基于底层宽表),具体业务逻辑在这就不详细介绍,以下是具体实现方案:列转换–方案一 case when 与max 或sumselect *from (select dzgs_dqbm,max(bs_wks) bs_wks,max(bs_jxz) bs_jxz,max(bs_ywc) bs_ywc,max(bs_wks_ztdm) wks_ztdm,max...

2018-10-09 19:56:50 1711

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除