狄杰丶-CSDN博客

原创任务治理“三板斧“之任务编排

背景先说说写这个系列的目的吧，有认识我的朋友知道，我在杭州某不知名电商工作，负责数据平台方向的开发，虽然我之前一直分享的都是某些组件的用法，但我的本职工作还是围绕着各个组件去打造去中心化的数据能力。我们团队从去年开始，一直在朝着这个方向努力；经过一年的积累，我们也做出了部分的产品，如元数据系统、开发平台、调度中心、数据交换等等；但随着我们的业务在不断的扩张与发展，我们平台的用户逐渐的增加，最先扛不住的不是我们的业务系统、不是我们自研的数据产品，而是我们的大数据集群具体体现在多个地方Yarn所有队列拥

2021-11-28 16:12:59 3822 5

原创 Apache Hudi 从入门到放弃(3) —— Flink Sql写过程分析(上)

背景介绍上一期给大家讲述了Hudi中，MOR表的目录文件结构；本打算这一期讲一下COW表的目录文件，不过考虑到目前在实时读写入Hudi的场景下，用的最多的还是MOR表，所以暂时跳过COW表的文件分析，转而对hudi-flink模块进行深入理解；本次分析也仅涉及hudi-flink中的内容另外，目前COW表已经支持Flink Streaming Read，有兴趣的可以试试看，我也会在之后的分享中从简单使用&原理分析来讲一讲COW表欢迎大家指出我文章的不足，让我更进一步源码分析开始之前Hud

2021-05-09 16:48:15 3943 13

原创 Apache Hudi 从入门到放弃(2) —— MOR表的文件结构分析

Apache Hudi 从入门到放弃(1) —— MOR表的文件结构分析写在开始本篇带大家分析一下Hudi中MOR表的文件结构刚开始看Hudi一周，有什么不对的地方欢迎大家指出事前准备建表-- 先准备一张Hudi MOR表CREATE TABLE hudi_test_dijie( id bigint, dt string, ts TIMESTAMP(3), PRIMARY KEY(id) NOT ENFORCED)PARTITIONED BY (`dt`)WITH ('co

2021-05-02 23:01:39 5806 20

原创 Apache Hudi 从入门到放弃(1) —— Hudi的初步尝试

写在开始本篇内容主要是分享一下如何通过Flink Sql 流式的读写Hudi表，也会说说我对Hudi的理解IDE选择的是Zeppelin，环境配置可以参考一下我这篇博客环境准备代码编译这里我们使用的是Master分支的Hudi进行编译git clone https://github.com/apache/hudi.git# 我使用的是scala版本为2.11的Flink，如果是2.12的scala，请在下面语句的最后加上 -Pscala-2.12 -Dscala-2.12mvn cl

2021-04-28 20:36:24 4330 6

原创 Apache Iecberg 从入门到放弃(3) —— 源码系列之Flink读过程分析

背景介绍上一章和带大家了解了一下Iceberg的元数据文件特殊之处，也简单的给大家描述了一下Iceberg是如何从快速定位到数据文件的，上一章将的比较干，因为都是一些理论知识，这一章我们从iceberg-flink模块的源码出发，带大家更加深入的了解Iceberg注意：本次源码分析基于Iceberg 0.11x分支，主要是讲解iceberg-flink模块，其余模块因为暂未深入了解所以会跳过，敬请见谅；并且如果有任何地方讲述不当，请直接指出另外，需要对Iceberg和Flink都一定的基础，否则会出现

2021-04-24 18:33:28 2230 8

原创 Apache Iecberg 从入门到放弃(2) —— Iceberg文件解析

背景介绍上一章我们讲过了如何将Flink和Iceberg结合，演示了一些常用的操作，并且在文章的最后演示了一个比较全的DEMO。主要是讲了一些使用上的内容，对于原理没有太过深入，而既然我们的标题是从入门到放弃，那么必然是要对Iceberg进行深入了解的，不然怎么会放弃呢????所以，今天我们就来对Flink 结合 Iceberg后，写在HDFS上的元数据文件进行解析不过在开始之前先准备一下工作先下载avro-tools点我下载用来分析我们的元数据文件再将我们上一次表中的所有元数据文件下载下来h

2021-04-13 19:38:29 4026 12

原创 Apache Iecberg 从入门到放弃(1) —— Flink X Iceberg On Zeppelin

背景介绍上一章我们聊过了Data Lake House&Iceberg的相关知识，也算是初步入门了。今天再来看看如何将Flink 和 Iceberg结合。Iceberg的官方案例是通过Flink Sql Client来实现的，这个东西的局限性比较大，而且不太好看（这是主要原因），所以我打算用Zeppelin来代替Sql Client。光说不练假把式，开整环境准备开始之前重申一下，我的环境准备是建立在Flink 已经能够正常在Zeppelin上提交到Yarn集群，并且与Hive打通，如果还没

2021-04-09 15:34:14 1547 1

原创 Apache Iecberg 从入门到放弃(0) —— 初步入门

什么是数据湖在开始整活之前，先介绍一下什么是数据湖，来一段亚马逊云上的介绍：数据湖是一个集中式存储库，允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据（无需先对数据进行结构化处理），并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习，以指导做出更好的决策。将任意结构的数据（Mysql、文本、视频）存储在任意规模的的存储系统中，可以按照原样存储数据（不需要强制绑定schema，也就是不用确定表结构），并进行不同的分析，比如离线实时ETL、机器学习、报表分

2021-04-07 20:52:08 973 2

原创记一次TopN 引起的Flink任务报错

解决由TopN+canal-json引起的Flink报错问题

2020-10-26 18:47:26 1846 2

原创 Flink Sql on Zeppelin（7）——Hive Streaming Sink之合并小文件

概述之前和大家聊Hive Streaming Sink的时候说过，可以通过指定参数sink.partition-commit.policy.kind，来决定在提交分区时要做的事，比如合并小文件本身Hive Streaming Sink是基于FileSystem Streaming Sink，FileSystem Streaming Sink其实已经做了保护，减少小文件的产生。主要是这两个参数sink.rolling-policy.file-size：文件超过多大会切分sink.rolling-p

2020-07-30 20:33:45 2425 5

原创 Flink Sql教程（8）

Flink精准去重概述为啥需要去重在某些情况下，由于上游的作业不是端到端的exactly-once，在上游出现问题自动failover的时候，该任务的sink端很大可能出现重复数据；这些重复数据又会影响下游的聚合作业（如SUM，COUNT）。所以，我们的作业需要去重完再进行计算去重方法TopN（Flink官网推荐的方式）Group ByUDTF（维表去重）各自优缺点前两者纯内存去重，效率高，速度快，使用简单；但是一旦任务KILL再启动就会有状态丢失，那么下游计算过的数据又会

2020-06-05 14:23:46 3087 3

原创 Flink Sql教程（7）

Redis异步维表概述之前和大家聊过维表，也聊过FLINK中如何使用维表，目前FLINK自带的维表有两种，一种是JDBC维表，一种是HBASE维表。其中JDBC维表支持缓存，HBASE暂不支持两种维表也都是同步维表，性能较弱我之前也说过会在后面的教程实现以下异步第三方维表，加上一个叫啤酒鸭的问我相关的问题，就抽空写了一把redis异步客户端我用的是Lettuce，大家也可以用Redission，Jedis是同步的，大家千万注意不过和我之前说的一样，缓存会遇到旧数据的问题，所以也相当于给大家留了

2020-06-03 16:54:03 4115 4

原创 Flink 如何将聚合结果写入kafka ——读写canal-json

概述1.11版本最重要的特性Hive Streaming在之前的博客，包括Flink中文社区的微信公众号上，都和大家聊过不少次了。那么除此之外，还有什么特性值得大家关注呢？CDC数据的解析：可以解析canal、debezium推到kafka中的binlog；如果在binlog中是个DELETE的操作，那么会自动解析成撤回流，将之前那条下发过的数据撤回；美中不足的是，只支持读，不支持写，这也就以为着无法将撤回流写入kafkaPostgres Catalog：如果要用Postgres中的表，不需要再C

2020-08-05 14:57:16 6313 2

原创 Flink Sql on Zeppelin（6）——Hive Streaming

概述Flink1.11 在上周二正式release了，在此之前我也给大家分享过了Flink1.11的一些新特性，然后和大家说过这一期会给大家单独说Flink X Hive本来打算找点数据，然后做一期类似于实时数仓的内容，但是数据不太好找，加上时间、精力有限就简单和大家聊聊吧在开始之前，大家参考一下Hive Integration，把flink 连接hive所需要的包放到lib目录下Hive Streaming Sink先看看官网是怎么描述Hive Streaming Sink的吧SET

2020-07-19 18:05:48 1746 5

原创 Flink Sql on Zeppelin（6）——Flink1.11预览（上）

Flink 1.11 Table&Sql预览概述之前就和大家说过要做一期Flink 1.11的超前点映版，加上Flink 1.11 release在即，所以这次的内容就和大家简单分享一些Table&Sql方面的新特性就像标题一样，还是会在Zeppelin中演示，由于两个项目都没release，所以我自己编了下，不过大家用的时候可能有点问题，可以钉钉联系我解决，钉钉号是rnodvmd。链接: https://pan.baidu.com/s/1qCsv9nf35mrqLSTMq9f1fQ

2020-07-05 14:34:06 2913

原创 Flink Sql on Zeppelin（5）——双流Join

双流Join概述其实之前和大家聊过双流Join，这次之所以再拉出来讲并不是在炒冷饭，而是发现了之前讲的一些不足以UnBounded Join来说，我之前一直以为，无论哪边的流先到，只要匹配上之后，key对应的、存储在state中的数据应该被清理。这样，无论哪边再来一条同样key的数据，不会触发数据下发，也就是一对一。其实这样的理解是错误的，key会一直存储在state中，直到OOM或者配置TTL之后被清理。那么，也就是会多次触发数据下发，也就是会发生一对多、多对多之前关于Time Interval

2020-06-28 17:48:26 1273 1

原创 Flink Sql on Zeppelin（4）——聚合结果写入Kafka

聚合结果写入Kafka概述大家在使用Flink Sql，并将聚合数据写入Kafka的时候，肯定遇到过这样的报错Exception in thread "main" org.apache.flink.table.api.TableException: AppendStreamTableSink requires that Table has only insert changes.at org.apache.flink.table.planner.plan.nodes.physical.stream.

2020-06-20 15:21:01 1892

狄杰的博客

原创任务治理“三板斧“之任务编排

原创 Apache Hudi 从入门到放弃(3) —— Flink Sql写过程分析(上)

原创 Apache Hudi 从入门到放弃(2) —— MOR表的文件结构分析

原创 Apache Hudi 从入门到放弃(1) —— Hudi的初步尝试

原创 Apache Iecberg 从入门到放弃(3) —— 源码系列之Flink读过程分析

原创 Apache Iecberg 从入门到放弃(2) —— Iceberg文件解析

原创 Apache Iecberg 从入门到放弃(1) —— Flink X Iceberg On Zeppelin

原创 Apache Iecberg 从入门到放弃(0) —— 初步入门

原创记一次TopN 引起的Flink任务报错

原创 Flink Sql on Zeppelin（7）——Hive Streaming Sink之合并小文件

原创 Flink Sql教程（8）

原创 Flink Sql教程（7）

原创 Flink 如何将聚合结果写入kafka ——读写canal-json

原创 Flink Sql on Zeppelin（6）——Hive Streaming

原创 Flink Sql on Zeppelin（6）——Flink1.11预览（上）

原创 Flink Sql on Zeppelin（5）——双流Join

原创 Flink Sql on Zeppelin（4）——聚合结果写入Kafka

原创 Flink Sql on Zeppelin（3）——UDF&Redis维表

原创 Flink Sql on Zeppelin（2）——维表Join

原创 Flink Sql on Zeppelin（1）——环境准备

原创 Flink Sql教程（6）

原创 Flink Sql教程（5）

原创 Flink Sql教程（4）

原创 Flink Sql教程（3）

原创 Flink Sql教程（2）

原创 Flink Sql教程（1）

flink-json-1.11.0.jar

flink-connector-hive_2.11-1.11.0.jar

flink-connector-kafka-base_2.11-1.10.0.jar

空空如也