自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(389)
  • 收藏
  • 关注

原创 个人公众号

2021-02-04 09:17:08 94

原创 大数据技术AI

2020-11-06 19:31:58 85

原创 FlinkSQL 窗口聚合

id=1, 1970-01-01T00:00:03Z, 1, 11]+I[张三, ./home, 1970-01-01T00:00:05Z, 2, 6]+I[张三, ./home, 1970-01-01T00:00:06Z, 3, 6]+I[李四, ./cart, 1970-01-01T00:00:08Z, 2, 6]# 10s内,王五2次,url最大11+I[王五, ./prod?在进行窗口计算时,分组窗口是将窗口本身当作一个字段对数据进行分组的,可以对组内的数据进行聚合。

2022-09-04 12:58:15 2401 2

原创 Flink Dynamic Tables

如果把流看作一张表,那么流中每个数据的到来,都应该看作是对表的一次插入(Insert)操作,会在表的末尾添加一行数据。而基于表执行的查询操作,也就有了新的含义。

2022-08-28 21:14:10 1379

原创 Hudi Spark-Shell 实战

spark-shell启动,需要指定spark-avro模块,因为默认环境里没有,spark-avro模块版本好需要和spark版本对应,这里都是3.1.3,并且使用Hudi编译好的jar包。

2022-08-08 19:47:56 1027

原创 Flink Yarn Per Job - 启动TM,向RM注册,RM分配solt

通过Rpc服务,启动 TaskExecutor,找 它的 onStart()方法。开始注册,注册成功之后,调用 onRegistrationSuccess()分配完之后,通知 TaskManager提供 slot给 JobMaster。终端的启动,实际上是由 自身网关(RpcServer)来启动的。根据 RM的命令,分配taskmanager上的slot。连接上job, 向JobManager提供 slot。TaskManager 提供slot。创建和注册 新的这些 slot。启动TaskManager。.

2022-08-04 19:26:31 412

原创 Flink Yarn Per Job - JobManger 申请 Slot

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z1OedAhy-1659612338060)(https://mmbiz.qpic.cn/mmbiz_svg/ibKHP1TZZeXLuZkD53jFWzc8iauhHlerlWDib9Dgm1JiaSF9LB4RGxxD4cSFrUoIeI4fvic7VPGpKGv8AqCJgcUeqLoOAXBW6kKov/640?JobMaster 启动时,启动 SlotPool,向 ResourceManager 注册。...

2022-08-04 19:25:50 466

原创 Flink Yarn Per Job - RM启动SlotManager

创建Yarn的ResourceManager的客户端,并且初始化和启动。创建yarn的 NodeManager的客户端,并且初始化和启动。启动心跳服务:TaskManager、JobMaster。启动心跳服务:TaskManager、JobMaster。创建了Yarn的RM和NM的客户端,初始化并启动。通过选举服务,启动ResourceManager。创建了Yarn的RM和NM的客户端。启动slotManager。启动SlotManager。启动slotManager。...

2022-08-04 19:24:20 362

原创 Flink Yarn Per Job - 创建启动Dispatcher RM JobManager

创建和启动 Dispatcher => dispatcher会创建和启动JobMaster。创建 调度器,创建的时候把 JobGraph转换成 ExecutionGraph。创建Yarn的ResourceManager的客户端,并且初始化和启动。创建yarn的 NodeManager的客户端,并且初始化和启动。创建接收前端Rest请求的节点,web页面提交的应用。创建 Yarn模式的 ResourceManager。创建和启动 JobManager里的组件。如果不存在执⾏图,就创建⼀个新的执⾏图。...

2022-08-02 19:52:48 401

原创 Flink Yarn Per Job - 启动AM

高可用配置:重试次数,默认2次(DEFAULT_RM_AM_MAX_ATTEMPTS=2)。用来上传:用户jar包、flink的依赖、flink的配置文件。2.0 用来上传:用户jar包、flink的依赖、flink的配置文件。10.0 将之前封装的 Map(AM的环境信息、类路径),设置到容器里。// 上传Flink的配置文件 - flink-conf.yaml。2.0 Yarn应用的文件上传器:FS、对应的HDFS路径。将之前封装的 Map(AM的环境信息、类路径),设置到容器里。...

2022-08-02 19:26:05 397

原创 Flink Yarn Per Job - 提交应用

代码】Flink Yarn Per Job - 提交应用。

2022-08-02 19:23:15 153

原创 Flink Yarn Per Job - 提交流程一

/构建nodechains,返回当前节点的物理出边;TODO将每个JobVertex的入边集合也序列化到该JobVertex的StreamConfig中(出边集合已经在setChaining的时候写入了)/*TODO最重要的函数,生成JobVertex,JobEdge等,并尽可能地将多个节点chain在一起*/TODO过渡用的出边集合,用来生成最终的JobEdge,注意不包括chain内部的边。//保证如果提交的拓扑没有改变,则每次生成的hash都是一样的。...

2022-08-01 19:50:34 705

原创 Flink Yarn Per Job - Yarn应用

决定后面什么类型的执行器提交任务yarn-session、yarn-per-job。是否指定为per-job模式,即指定”-myarn-cluster”;是否存在flink在yarn的appID,即yarn-session模式是否启动。executor的名字为“yarn-session”或“yarn-per-job”Generic、Yarn、Default三种命令行客户端。依次是Generic、Yarn、Default。匹配一个“-”的参数或者两个“–”的参数。...

2022-08-01 19:47:34 1090 2

原创 Flink Yarn Per Job - CliFrontend

java-cp就会开启JVM虚拟机,在虚拟机上开启CliFrontend进程,然后开始执行main方法。ResourceManager的创建、启动(slotmanager真正的管理资源,向yarn申请资源)slotpool向slotmanger申请资源,slotmanger向yarn申请资源(启动节点)java-cp和-classpath一样,是指定类运行所依赖其他类的路径。集群描述器上传jar包、配置,封装提交给yarn的命令。Per-Job启动的三个进程。...

2022-08-01 19:44:59 380

原创 编译Hudi

Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料129篇原创内容公众号版本分布centoscentos8hudi0.10.1spark3.1.3scala2.12。

2022-07-30 10:36:13 587

原创 Flink SQL Hudi 实战

官网httpsgiteehttps。

2022-07-28 20:40:33 1083 2

原创 Flink Postgres CDC

Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料128篇原创内容公众号。

2022-07-26 20:16:29 3093 1

原创 k8s 组件及优势

Kubernetes是一个可移植、可扩展的开源平台,用于管理容器化的工作负载和服务,可促进声明式配置和自动化。Kubernetes拥有一个庞大且快速增长的生态,其服务、支持和工具的使用范围相当广泛。这个名字源于希腊语,意为“舵手”或“飞行员”。k8s这个缩写是因为k和s之间有八个字符的关系。Google在2014年开源了Kubernetes项目。Kubernetes建立在Google大规模运行生产工作负载十几年经验的基础上,结合了社区中最优秀的想法和实践。replicas。...

2022-07-15 19:36:22 863

原创 Docker postgres

大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料124篇原创内容公众号2、创建本地卷数据卷可以在容器之间共享和重用, 默认会一直存在,即使容器被删除(docker volume inspect pgdata可查看数据卷的本地位置,验证持久数据目录)3、启动容器run :创建并运行一个容器–name :指定容器名称-e POSTGRES_PASSWORD=123456,设置环境变量,指定数据库的登录口令为123456-p :指定宿主机和 Docker

2022-07-04 20:22:49 1507

原创 Docker 命令大全及应用实战

大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料122篇原创内容公众号Docker_Host安装Docker的主机Docker Daemon:运行在Docker主机上的Docker后台进程Client:操作Docker主机的客户端(命令行、UI等)Registry:镜像仓库Docker HubImages:镜像,带环境打包好的程序,可以直接启动运行Containers:容器,由镜像启动起来正在运行中的程序参照如下文档:https://docs.docker.c

2022-07-03 09:39:39 185

原创 Hive常用窗口分析函数

大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料121篇原创内容公众号FIRST_VALUE:取分组内排序后,截止到当前行,第一个值LAST_VALUE:取分组内排序后,截止到当前行,最后一个值LEAD(col,n,DEFAULT) :用于统计窗口内往后第n行值。第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)LAG(col,n,DEFAULT) :用于统计窗口内往前

2022-07-02 10:28:33 264

原创 Flink 细粒度滑动窗口性能优化

大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料118篇原创内容公众号当使用细粒度的滑动窗口(窗口长度远远大于滑动步长)时,重叠的窗口过多,一个数据会属于多个窗口,性能会急剧下降。以1分钟的频率实时计算App内各个子模块近24小时的PV和UV。我们需要用粒度为1440 / 1 = 1440的滑动窗口来实现它,但是细粒度的滑动窗口会带来性能问题,有两点:对于一个元素,会将其写入对应的(key, window)二元组所圈定的windowState状态中。如果粒度为

2022-06-23 21:28:22 993

原创 Flink DataGen 模拟数据源

大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料117篇原创内容公众号开发完Flink作业,压测的方式很简单,先在kafka中积压数据,之后开启Flink任务,出现反压,就是处理瓶颈。相当于水库先积水,一下子泄洪。数据可以是自己造的模拟数据,也可以是生产中的部分数据。造测试数据的工具:DataFactory、datafaker 、DBMonster、Data-Processer 、Nexmark、Jmeter等。Flink从1.11开始提供了一个内置的Data

2022-06-20 20:13:48 2440

原创 Flink双流join的3种方式及IntervalJoin源码分析

大数据技术AIFlink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料117篇原创内容公众号在数据库中的静态表上做 OLAP 分析时,两表 join 是非常常见的操作。同理,在流式处理作业中,有时也需要在两条流上做 join 以获得更丰富的信息。Flink DataStream API 为用户提供了3个算子来实现双流 join,分别是:join()coGroup()intervalJoin()join()join() 算子提供的语义为"Window join",即按照指定字段和(滚

2022-06-07 13:13:24 883

原创 Mac m1 Ubuntu里docker中安装mysql

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 117篇原创内容 ...

2022-05-28 16:00:34 299

原创 Java Map接口详解

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 116篇原创内容 ...

2022-05-24 20:32:56 432

原创 Kafka监控Eagle

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 115篇原创内容 ...

2022-05-22 14:46:15 502

原创 kafka craft 尝鲜

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 114篇原创内容 ...

2022-05-15 18:06:51 351

原创 Apache Linkis 中间件架构及快速安装

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 110篇原创内容 ...

2022-03-14 16:04:11 5518

原创 StarRocks 安装与配置

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 109篇原创内容 ...

2022-03-02 14:00:14 7173

原创 Hadoop Kerberos 集成

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 106篇原创内容 ...

2022-02-10 15:54:15 2653 6

原创 Kerberos 部署与使用

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 105篇原创内容 ...

2022-01-23 13:24:41 3513

原创 Docker 容器的使用和Dockerfile配置ssh服务

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 102篇原创内容 ...

2022-01-15 16:34:09 2007 1

原创 Docker安装与镜像的使用

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 102篇原创内容 ...

2022-01-12 10:46:51 1564

原创 Java Collection接口之: List接口&Set接口

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 101篇原创内容 ...

2022-01-10 10:33:27 383

原创 Scala 模式匹配详解

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 101篇原创内容 ...

2021-12-30 11:09:02 2269

原创 Flink Streaming-Sink

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 100篇原创内容 ...

2021-12-29 13:56:37 1563

原创 Linux sed命令

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 98篇原创内容 ...

2021-12-16 16:10:35 1713

原创 Flink SQL 时区

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 95篇原创内容 ...

2021-12-02 17:33:55 3074

原创 Flink SQL TOPN 优化

大数据技术AI Flink/Spark/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料 94篇原创内容 ...

2021-11-29 16:08:00 1199

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除