自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 记录一次spark2.x数据倾斜(隐藏的笛卡尔积)排查处理过程

目录一、问题描述二、尝试调整参数三、查看spark具体sql流程图一、问题描述有一个dwd层中间表的入表任务,有几天的日期永远无法执行成功,平时的任务时间大概在2分钟。之前也遇到过一次这样的情况,是通过排查脏数据得到了解决(长字符串id中有不规则脏字符),这次实在没有头绪。二、尝试调整参数因为查看yarn任务的页面,发现总是报错在拒绝连接,看到有个别任务总是执行半天卡住,并且shuffle的records数量也明显高于其他exceutor,并且不仅spill到内存,甚至到了磁

2022-04-17 15:56:43 1802

原创 apache-sqoop使用问题及总结

目录1.找不到hive2.sqoophook、hivedatatypes使用版本为ambari-2.7.3,自带的sqoop-1.4.71.找不到hive21/09/08 11:16:16 ERROR tool.ImportTool: Import failed: java.io.IOException: Cannot run program "hive": error=2, No such file or directory在安装sqoop的机器上,安装hive客户端并配置环.

2021-09-08 17:30:22 459

原创 apache-dolphinscheduler的使用问题总结

一、租户问题二、指定虚拟python环境的python类型任务的执行时环境变量问题三、资源中心创建目录或者文件失败四、由zookeeper同步引起的shutdown问题

2021-08-27 21:06:20 2962

原创 apache-flume使用经验及优化

关于flume的简介不再过多赘述,小伙伴们可参考官方文档及谷歌翻译进行了解~一、使用架构目前我在实际生产使用的方案是在网上参照大神们的一套高可用方案:agent-collector。一个节点作为agent从kafka消费获取数据,然后通过avro-sink,传输到2个collector(当然同样适用avro-source进行接收了),然后2个collector绑定为一个group,并配置为failover,写入hdfs-sink。整个过程的channel,都用的是memory,因为这样效率比

2021-08-14 12:08:30 187

原创 Airflow2.0.0问题及解决(不定期持续更新)

1.psycopg2.OperationalError:FATAL:remaining connection slots are reserved for non-replication

2021-06-04 21:02:58 743 2

原创 hive元数据修改未生效

一、问题及分析我将一个tinyint的字段通过hive客户端修改为smallint类型。后续通过presto查询数据时候,报错:java.io.IOException: Malformed ORC file. Can not read SQL type tinyint from ORC stream .origin of type SHORT...

2021-05-31 20:41:09 809 4

原创 flink1.12.3+python3.7+pyflink实时消费kafka

一、环境介绍centos7、anaconda的虚拟环境python3.7、官网原生flink1.12.3、官网原生kafka_2.12-2.7.0、官网原生apache-zookeeper-3.6.3-bin二、思路梳理写一个数据生成器往kafka里面生产数据——>pyflink实时消费kafka的流数据三、启动zookeeper、kafka、flink集群(本地)等步骤省略四、数据生成器(这个测试的时候用的python2,问题不大)# --coding=utf8--imp

2021-05-15 17:55:26 3490 4

原创 pycharm通过git新加远程gitee代码库并上传

一、如果没有则先注册gitee(码云)账户建议和国内账号绑定比如微信,因为本来就是因为github慢才换到码云,如果还用github账号作为关联账户则还不如用github。二、在gitee上新建一个代码库,或者从github上导入代码库(码云支持)三、查看gitee上的代码库地址,并复制出来四、在本地git添加gitee的远程代码库git remote add name url #添加远程仓库如:git remote add gitee_repo 刚刚从码云复制的url ..

2021-05-05 22:19:33 301

原创 比较保险、方便、彻底的卸载ambari方式

比较保险、方便的卸载ambari目录一、在ambari页面停止所有服务,如果不嫌烦的话,可以直接在页面右边的action按钮里将服务依次删除二、重点:yum卸载三、清理残留文件夹和文件四、如果需要,删除相关用户如hdfs等。此处略一、在ambari页面停止所有服务,如果不嫌烦的话,可以直接在页面右边的action按钮里将服务依次删除二、重点:yum卸载因为amabri中的大数据组件使用的是hdp统一进行安装的,并且需要配置yum源通过yum安装。因此我们使用命令:yum

2021-04-24 15:31:07 1658

原创 Airflow2.0+celery+redis任务调度部署及使用

Airflow任务调度(本文档内容有同事贡献部分,该部分标记为蓝色,对同事表示感谢) 环境 版本:airflow 2.0.0;python 3.6部署方式:集群部署,运行在anaconda3的虚拟环境 (airflow)* 节点7 [webserver、schuduler、worker]* 节点8 [worker]* 节点9 [worker、schuduler]官网文档(最新):http://airflow.apache.org/docs/apache-airf..

2021-04-10 11:51:10 4528 12

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除