*星星之火*-CSDN博客

flink sql 中kafka 表join mysql表，发现无法检测到mysql表到新增、update, 百度多篇文章，写得好像可以解决问题，但又没有详细的解决方法步骤，故而写本人，期后来者以填坑。本文记录测试思路、流程与结论。测试结论：1.kaka做为驱动表源，可以通过lookup的方式，感知mysql维表的变化 2.iceberg表无法使用lookup方式，不能通过lookup感知mysql维表的变化

2022-11-21 11:33:00 699

原创 flink cdc 没有Replication client ，Replication slave权限，报错，处理

fiink cdc 的表用户，需要有Replication client ，Replication slave权限。授权命令如下： grant Replication client on *.* to ods_base@'%'; grant replication slave on *.* to ods_base@'%'; flush privileges;

2022-09-09 16:54:39 3317

原创实践数据湖iceberg 第三十九课清理快照前后数据文件变化分析

分析hive_iceberg_catalog.system.expire_snapshots()命令前后，数据湖表底层发生的变更

2022-08-05 16:58:05 1216

原创实践数据湖iceberg 第三十八课 spark sql， Procedures语法进行数据治理（小文件合并，清理快照）

从kafka源写入iceberg，会生成大量的小文件，合并小文件，有代码的方式，spark3结合iceberg0.11后，支持使用sql方式实现文件治理，本文记录 expire_snapshots,rewrite_manifests的运行效果与底层文件的变化

2022-08-05 10:16:39 1865

原创实践数据湖iceberg 第三十七课 kakfa写入iceberg的 icberg表的 enfource ,not enfource测试

测试 iceberg读取kafka的数据，能否根据kafka上的id，入湖时，自动更新iceberg的数据，对这个场景进行测试测试结果：不能

2022-07-22 16:25:50 1489

原创实践数据湖iceberg 第三十六课基于数据湖icerberg的流批一体架构--update mysql select from icberg语法是增量更新测试

续上一课，计算一个PV的，案例，最终把结果更新到MYSQL本文测试如下语法是否增量更新insert into default_catalog.default_database.mysql_pv select dt, cast(count(*) as int) as pv from hive_iceberg_catalog.ods_base.IcebergSink_XXZH /*+ OPTIONS('streaming'='true', 'monitor-interval'='1s')*/ where

2022-06-17 14:44:17 899

原创实践数据湖iceberg 第三十五课基于数据湖icerberg的流批一体架构--测试增量读是读全量还是仅读增量

上一课中，讲到增量更新，小弟的boss问到，增量实现，是读增量数据还是把历史数据也重新读了一次？暴击，按照我的理解，就是读增量。。。，大佬是不认按照理解的！好吧，测试一下，故有本文，读者感到我滴血的心嘛，试问大家有没有这种经历。。。......

2022-06-16 21:21:59 949

原创实践数据湖iceberg 第三十四课基于数据湖icerberg的流批一体架构-流架构测试

lambda架构中， kafka->flink中支持各种流函数，数据入iceberg后，如何对icberg进行流操作，实现类似流函数的结果？基于数据湖的流批一体是什么意思？

2022-06-14 15:46:26 1612 4

原创实践数据湖iceberg 第三十三课升级flink到1.14，自带functioin支持json函数

需要flink支持类似hive的get_json_object的功能，又不想自定义function, 有什么办法？目前用flink1.13.5版本，看官网，自带function都没有这个函数，于是发现了新版本flink1.14提供了这些功能，于是有了升级的冲动。。。

2022-05-09 20:30:08 1255

原创实践数据湖iceberg 第三十二课 DDL语句通过hive catalog持久化方法

问题： flink的sql-client上，创建表，只是当前session有用，退出回话，需要重新创建表。多人共享一个表，很麻烦，有什么办法？解决方法：把建表的DDL操作，持久化到HIVE上，由hive来管理。如何实现呢？使用hive catalog，在hive catalog下创建表。所有表都是持久化的。

2022-05-07 14:40:14 1008 2

原创实践数据湖iceberg 第三十一课使用github的flink-streaming-platform-web工具，管理flink任务流，测试cdc重启场景

flink重启，需要从checkpoint恢复。涉及到任务工程化管理，自研一套这种工具，很耗时，对小公司来说，吃力不讨好，所有寻找了个开源方案，测试flink-streaming-platform-web ，支持sql,jar，各种集群模式提交，亲测可用

2022-04-28 14:49:24 1274 1

原创实践数据湖iceberg 第三十课 mysql-＞iceberg，不同客户端有时区问题

mysql->flink-sql-cdc->iceberg。从flink查数据时间没问题，从spark-sql查，时区+8了。对这个问题进行记录最后解决方案：源表没有timezone, 下游表需要设置local timezone，这样就没问题了！

2022-04-21 16:33:34 3525

原创 mysql binlog记录insert update delete的记录方式与flink sql不一样

查看insert,update,delete在mysql binlog中是如何进行记录的在flink sql中，update会转化为一条delete和一条insert，故想看看在mysql binlog的记录方式

2022-04-20 16:08:52 1731

原创实践数据湖iceberg 第二十九课如何优雅高效获取flink的jobId

提交一个flink作业，希望获取这个作业的jobId,以便后续程序监控，例如获取checkpoint路径，从checkpoint点重启

2022-04-15 16:50:18 2646

原创实践数据湖iceberg 第二十八课把公有仓库上不存在的包部署到本地仓库

**问题**： iceberg很多包，maven仓库没有，但iceberg提供了，通过pom编译打包，报错，原因是maven仓库没有这个包。**解决方法**：把这些包通过maven命令把包打到本地仓库

2022-04-14 16:56:50 1729

原创 flink1.13.5编译，各种填坑

问题：使用官网flink1.13.5,hadoop2.7.2，无法把jar提交到集群进行standalone和yarn模式的部署解决方法：自编译源码

2022-04-07 17:47:33 3228 1

原创实践数据湖iceberg 第二十七课 flink cdc 测试程序故障重启：能从上次checkpoint点继续工作

程序化部署，测试flink cdc重启恢复测试思路：1.程序停止时，进行checkpoint记录，记录checkpoint的位置 2.程序停止时，写入数据，记录写入的数据，测试重启后，能否从故障点开始恢复。结论：能

2022-04-07 17:32:42 3843

原创修改hive默认格式

文章目录前言一、修改hive默认格式方法二、测试是否生效总结前言设置hive默认格式，作用，统一数据格式。一、修改hive默认格式方法设置默认格式为rcfilehive (default)> set hive.default.fileformat.managed=rcfile;hive (default)> set hive.default.fileformat=rcfile;二、测试是否生效思路：修改格式前后建表，检查表的格式建表，查看目前格式hive (defa

2022-04-06 11:48:09 2792

原创 apache源码学以致用第三课: 跟kafka学习写classpath脚本

跟kafka学习写java classpath 运行脚本

2022-04-01 16:46:53 947

原创实践数据湖iceberg 第二十六课 checkpoint设置方法

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言checkpoint设置方法一、pandas是什么？二、使用步骤1.引入库2.读入数据3.总结前言checkpoint设置方法提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？ StreamExecutionEnvironment

2022-04-01 16:36:48 2104

原创实践数据湖iceberg 第二十五课后台运行flink sql 增删改的效果

系列文章目录实践数据湖iceberg 第一课入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课在sqlclient中，以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课在sqlclient中，以sql方式从kafka读数据到iceberg（升级版本到flink1.12.7）实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课从kafka写入到iceber

2022-04-01 15:04:44 2028

原创 hive select * 语法中去掉部分列

hive表有很多列，大部分列需要，其中一列不需要，例如分区表的dt字段不要，例如1000列中去掉1列

2022-03-23 18:06:09 7385

原创小文件治理之hive文件合并：hive小文件合并的三种方法

合并小文件太多的方法：一、concatenate方法二、insert overwrite方法总结三、insert overwrite select ＊

2022-03-23 15:08:43 14583 1

原创小文件治理之hadoop集群监控：文件目录个数获取的三种方法

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、二、jmx获取二、使用hadoop fs -count 获取三、代码实现总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正

2022-03-15 08:06:38 863

原创 apache源码学以致用第二课: 跟kafka学习程序优雅退出

程序运行后，需要做资源清理，删除目录、关闭数据库连接等，本文学习kafka，顶级大师的代码，看看怎样把本领学到手。在main方法中增加 Runtime.getRuntime().addShutdownHook(new Thread()）来实现资源的清理

2022-03-11 14:42:16 2638

原创 apache源码学以致用第一课：为什么写这个专栏

文章目录为什么写这个专栏为什么写这个专栏平时看源码，看后，可能经过反复看，学习、加实践，实践过程中有疑惑，再参考一下世界顶级代码。突然想起，从历史记忆中找各种点点滴滴的东西，很难。现在想到更好的方法是：看到一个好的方法，应用与工作中的实际案例，写下文章，容易未来整理，也给后人学习。...

2022-03-11 10:12:51 66

原创小文件治理之hadoop集群监控：Jmx上的TotalFiles其实是TotalFilesAndDirectory 总文件+总目录数

文章目录前言一、50070页面，这2个数字的意思二、验证方法步骤1．停止集群，记录目前的数据步骤2. put一个有3个block的文件看看，对比变化总结前言50070页面上的文件数和block数，通过jmx获取时，看字面上的意思对不上，所以，专门写个文章分析一下。提示：以下是本篇文章正文内容，下面案例可供参考一、50070页面，这2个数字的意思第一个是文件数+目录数的总和，目前是66236，第二个数是65530个block,block的个数（不包含副本）二、验证方法**验证方法：**停止

2022-03-09 14:20:56 2402

原创 hadoop fs -count 返回的是目录树和文件数

文章目录测试hadoop fs -count 返回前2个数值的意思测试hadoop fs -count 返回前2个数值的意思[root@hadoop101 software]# hadoop fs -ls -R /tmp/testdrwxr-xr-x - root supergroup 0 2022-03-09 11:11 /tmp/test/software-rw-r--r-- 2 root supergroup 209419991 2022-03-09 11:11

2022-03-09 11:24:47 2318

原创小文件治理之hadoop集群监控： hdfs jvm数据获取

文章目录前言一、获取jvm使用情况信息二、获取的所有信息三、获取指定信息方法四、更多namenode的参数信息总结前言怎样爬取50070页面的信息，一开始想写个爬虫，后来发现，可以通过接口调用，节省了很多麻烦一、获取jvm使用情况信息}[root@hadoop101 ~]# curl hadoop101:50070/jmx?qry=java.lang:type=Memory{ "beans" : [ { "name" : "java.lang:type=Memory", "

2022-03-08 19:46:13 849

原创实践数据湖iceberg 第二十四课 iceberg元数据详细解析

本文彻底解释 iceberg元数据存储细节实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程，记录踩坑，填坑，iceberg特征的了解与原理的认知

2022-02-23 20:50:36 4754

原创实践数据湖iceberg 第二十三课 flink-sql从checkpoint重启

成功测试flink-sql以非jar包的方式从checkpoint重启，完成故障恢复测试实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程，记录踩坑，填坑，iceberg特征的了解与原理的认知

2022-02-23 15:46:18 4283 1

原创实践数据湖iceberg 第二十二课 flink1.13.5 + iceberg0.131 CDC(CRUD测试成功)

成功测试 flink+mysql-cdc+iceberg数据湖的CRUD实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程，记录踩坑，填坑，iceberg特征的了解与原理的认知

2022-02-22 21:13:47 2286

原创实践数据湖iceberg 第二十一课 flink1.13.5 + iceberg0.131 CDC(测试成功INSERT,变更操作失败)

实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程，记录踩坑，填坑，iceberg特征的了解与原理的认知

2022-02-22 19:30:46 2517

空空如也

空空如也