hyunbar-CSDN博客

id=1, 1970-01-01T00:00:03Z, 1, 11]+I[张三, ./home, 1970-01-01T00:00:05Z, 2, 6]+I[张三, ./home, 1970-01-01T00:00:06Z, 3, 6]+I[李四, ./cart, 1970-01-01T00:00:08Z, 2, 6]# 10s内，王五2次，url最大11+I[王五, ./prod?在进行窗口计算时，分组窗口是将窗口本身当作一个字段对数据进行分组的，可以对组内的数据进行聚合。

2022-09-04 12:58:15 2401 2

原创 Flink Dynamic Tables

如果把流看作一张表，那么流中每个数据的到来，都应该看作是对表的一次插入（Insert）操作，会在表的末尾添加一行数据。而基于表执行的查询操作，也就有了新的含义。

2022-08-28 21:14:10 1379

原创 Hudi Spark-Shell 实战

spark-shell启动,需要指定spark-avro模块，因为默认环境里没有，spark-avro模块版本好需要和spark版本对应，这里都是3.1.3，并且使用Hudi编译好的jar包。

2022-08-08 19:47:56 1027

原创 Flink Yarn Per Job - 启动TM，向RM注册，RM分配solt

通过Rpc服务，启动 TaskExecutor，找它的 onStart()方法。开始注册，注册成功之后，调用 onRegistrationSuccess()分配完之后，通知 TaskManager提供 slot给 JobMaster。终端的启动，实际上是由自身网关（RpcServer）来启动的。根据 RM的命令，分配taskmanager上的slot。连接上job，向JobManager提供 slot。TaskManager 提供slot。创建和注册新的这些 slot。启动TaskManager。.

2022-08-04 19:26:31 412

原创 Flink Yarn Per Job - JobManger 申请 Slot

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z1OedAhy-1659612338060)(https://mmbiz.qpic.cn/mmbiz_svg/ibKHP1TZZeXLuZkD53jFWzc8iauhHlerlWDib9Dgm1JiaSF9LB4RGxxD4cSFrUoIeI4fvic7VPGpKGv8AqCJgcUeqLoOAXBW6kKov/640?JobMaster 启动时，启动 SlotPool，向 ResourceManager 注册。...

2022-08-04 19:25:50 466

原创 Flink Yarn Per Job - RM启动SlotManager

创建Yarn的ResourceManager的客户端，并且初始化和启动。创建yarn的 NodeManager的客户端，并且初始化和启动。启动心跳服务：TaskManager、JobMaster。启动心跳服务：TaskManager、JobMaster。创建了Yarn的RM和NM的客户端，初始化并启动。通过选举服务，启动ResourceManager。创建了Yarn的RM和NM的客户端。启动slotManager。启动SlotManager。启动slotManager。...

2022-08-04 19:24:20 362

原创 Flink Yarn Per Job - 创建启动Dispatcher RM JobManager

创建和启动 Dispatcher => dispatcher会创建和启动JobMaster。创建调度器，创建的时候把 JobGraph转换成 ExecutionGraph。创建Yarn的ResourceManager的客户端，并且初始化和启动。创建yarn的 NodeManager的客户端，并且初始化和启动。创建接收前端Rest请求的节点，web页面提交的应用。创建 Yarn模式的 ResourceManager。创建和启动 JobManager里的组件。如果不存在执⾏图，就创建⼀个新的执⾏图。...

2022-08-02 19:52:48 401

原创 Flink Yarn Per Job - 启动AM

高可用配置：重试次数，默认2次（DEFAULT_RM_AM_MAX_ATTEMPTS=2）。用来上传：用户jar包、flink的依赖、flink的配置文件。2.0 用来上传：用户jar包、flink的依赖、flink的配置文件。10.0 将之前封装的 Map（AM的环境信息、类路径），设置到容器里。// 上传Flink的配置文件 - flink-conf.yaml。2.0 Yarn应用的文件上传器：FS、对应的HDFS路径。将之前封装的 Map（AM的环境信息、类路径），设置到容器里。...

2022-08-02 19:26:05 397

原创 Flink Yarn Per Job - 提交应用

代码】Flink Yarn Per Job - 提交应用。

2022-08-02 19:23:15 153

原创 Flink Yarn Per Job - 提交流程一

/构建nodechains，返回当前节点的物理出边；TODO将每个JobVertex的入边集合也序列化到该JobVertex的StreamConfig中(出边集合已经在setChaining的时候写入了)/*TODO最重要的函数，生成JobVertex，JobEdge等，并尽可能地将多个节点chain在一起*/TODO过渡用的出边集合,用来生成最终的JobEdge,注意不包括chain内部的边。//保证如果提交的拓扑没有改变，则每次生成的hash都是一样的。...

2022-08-01 19:50:34 705

原创 Flink Yarn Per Job - Yarn应用

决定后面什么类型的执行器提交任务yarn-session、yarn-per-job。是否指定为per-job模式，即指定”-myarn-cluster”;是否存在flink在yarn的appID，即yarn-session模式是否启动。executor的名字为“yarn-session”或“yarn-per-job”Generic、Yarn、Default三种命令行客户端。依次是Generic、Yarn、Default。匹配一个“-”的参数或者两个“–”的参数。...

2022-08-01 19:47:34 1090 2

原创 Flink Yarn Per Job - CliFrontend

java-cp就会开启JVM虚拟机，在虚拟机上开启CliFrontend进程，然后开始执行main方法。ResourceManager的创建、启动（slotmanager真正的管理资源，向yarn申请资源）slotpool向slotmanger申请资源，slotmanger向yarn申请资源（启动节点）java-cp和-classpath一样，是指定类运行所依赖其他类的路径。集群描述器上传jar包、配置，封装提交给yarn的命令。Per-Job启动的三个进程。...

2022-08-01 19:44:59 380

原创编译Hudi

Flink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料129篇原创内容公众号版本分布centoscentos8hudi0.10.1spark3.1.3scala2.12。

2022-07-30 10:36:13 587

原创 Flink SQL Hudi 实战

官网httpsgiteehttps。

2022-07-28 20:40:33 1083 2

原创 Flink Postgres CDC

Flink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料128篇原创内容公众号。

2022-07-26 20:16:29 3093 1

原创 k8s 组件及优势

Kubernetes是一个可移植、可扩展的开源平台，用于管理容器化的工作负载和服务，可促进声明式配置和自动化。Kubernetes拥有一个庞大且快速增长的生态，其服务、支持和工具的使用范围相当广泛。这个名字源于希腊语，意为“舵手”或“飞行员”。k8s这个缩写是因为k和s之间有八个字符的关系。Google在2014年开源了Kubernetes项目。Kubernetes建立在Google大规模运行生产工作负载十几年经验的基础上，结合了社区中最优秀的想法和实践。replicas。...

2022-07-15 19:36:22 863

原创 Docker postgres

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料124篇原创内容公众号2、创建本地卷数据卷可以在容器之间共享和重用，默认会一直存在，即使容器被删除（docker volume inspect pgdata可查看数据卷的本地位置，验证持久数据目录）3、启动容器run ：创建并运行一个容器–name ：指定容器名称-e POSTGRES_PASSWORD=123456，设置环境变量，指定数据库的登录口令为123456-p ：指定宿主机和 Docker

2022-07-04 20:22:49 1507

原创 Docker 命令大全及应用实战

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料122篇原创内容公众号Docker_Host安装Docker的主机Docker Daemon：运行在Docker主机上的Docker后台进程Client：操作Docker主机的客户端（命令行、UI等）Registry：镜像仓库Docker HubImages：镜像，带环境打包好的程序，可以直接启动运行Containers：容器，由镜像启动起来正在运行中的程序参照如下文档：https://docs.docker.c

2022-07-03 09:39:39 185

原创 Hive常用窗口分析函数

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料121篇原创内容公众号FIRST_VALUE：取分组内排序后，截止到当前行，第一个值LAST_VALUE：取分组内排序后，截止到当前行，最后一个值LEAD(col,n,DEFAULT) ：用于统计窗口内往后第n行值。第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第三个参数为默认值（当往下第n行为NULL时候，取默认值，如不指定，则为NULL）LAG(col,n,DEFAULT) ：用于统计窗口内往前

2022-07-02 10:28:33 264

原创 Flink 细粒度滑动窗口性能优化

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料118篇原创内容公众号当使用细粒度的滑动窗口（窗口长度远远大于滑动步长）时，重叠的窗口过多，一个数据会属于多个窗口，性能会急剧下降。以1分钟的频率实时计算App内各个子模块近24小时的PV和UV。我们需要用粒度为1440 / 1 = 1440的滑动窗口来实现它，但是细粒度的滑动窗口会带来性能问题，有两点：对于一个元素，会将其写入对应的(key, window)二元组所圈定的windowState状态中。如果粒度为

2022-06-23 21:28:22 993

原创 Flink DataGen 模拟数据源

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料117篇原创内容公众号开发完Flink作业，压测的方式很简单，先在kafka中积压数据，之后开启Flink任务，出现反压，就是处理瓶颈。相当于水库先积水，一下子泄洪。数据可以是自己造的模拟数据，也可以是生产中的部分数据。造测试数据的工具：DataFactory、datafaker 、DBMonster、Data-Processer 、Nexmark、Jmeter等。Flink从1.11开始提供了一个内置的Data

2022-06-20 20:13:48 2440

原创 Flink双流join的3种方式及IntervalJoin源码分析

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料117篇原创内容公众号在数据库中的静态表上做 OLAP 分析时，两表 join 是非常常见的操作。同理，在流式处理作业中，有时也需要在两条流上做 join 以获得更丰富的信息。Flink DataStream API 为用户提供了3个算子来实现双流 join，分别是：join()coGroup()intervalJoin()join()join() 算子提供的语义为"Window join"，即按照指定字段和（滚

2022-06-07 13:13:24 883

空空如也

空空如也