XuTengRui-CSDN博客

原创 Flink源码解析: Flink客户端提交程序源码过程

系列文章目录Flink源码分析:Flink SQL Submit源码提交过程 (1)Flink源码分析:基于事件时间场景下WaterMark源码分析Flink源码分析: 重启策略机制RestartStrategyFlink源码分析: 广播状态流实现动态更新或字段参数变更Flink源码分析: Flink JDBC Upsert模式实现原理文章目录系列文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言上期解

2021-08-10 00:31:13 488

原创 Flink源码分析:Flink SQL Submit源码提交过程

系列文章Flink源码解析：基于事件时间场景下WaterMark源码分析Flink源码分析: 重启策略机制RestartStrategyFlink源码分析: 广播状态流实现动态更新或字段参数变更Flink源码分析: Flink JDBC Upsert模式实现原理目录系列文章一. SqlClient.class加载外部jar包加载lib包下的jar包创建一个本地执行器用执行器加载默认环境创建客户端客户端中打开一个新的会话执行SQL总结关注

2021-08-03 22:11:38 937

原创 Flink使用指南：Flink设置全局变量，并在函数中获取，让你的代码更加优雅！

系列文章目录Flink使用指南：Checkpoint机制，完全搞懂了，你就是大佬！Flink使用指南: 面试必问内存管理模型，进大厂一定要知道！Flink使用指南: Kafka流表关联HBase维度表Flink使用指南: Watermark新版本使用Flink使用指南: Flink SQL自定义函数设置全局变量Flink允许将自定义的配置传递给ExecutionConfig的环境接口，由于执行配置科在所有的用户功能中访问，因此自定义配置将在所有功能中全局可用。Conf

2021-07-15 11:51:59 9672 1

原创 Flink使用指南：状态计算完全搞懂了，你就是大佬！

系列文章目录Flink使用指南: 面试必问内存管理模型，进大厂一定要知道！Flink使用指南: Kafka流表关联HBase维度表Flink使用指南: Watermark新版本使用Flink使用指南: Flink SQL自定义函数目录系列文章目录前言一、Checkpoint机制如何开启Checkpoint二、Keyed State 和 Operator State原始状态和托管状态如何使用Managed Keyed State状态的生命周期（TTL）.

2021-07-05 15:59:00 1646 19

原创 Flink使用指南: 面试必问内存管理模型，进大厂一定要知道！

系列文章目录Flink使用指南: Kafka流表关联HBase维度表Flink使用指南: Watermark新版本使用Flink使用指南: Flink SQL自定义函数前言如果大数据从业者经常使用Spark，Flink两大计算引擎，内存管理模型概念是使用者必须要知道的概念，熟悉内存管理模型可以帮助大家写出更好的代码，计算性能较慢时可以根据内存管理模型重新分配或者优化资源。今天给大家讲解下基于Flink1.12版本的内存管理模型，以及引申出Flink对堆外内存的使用。以后有时间的话

2021-07-04 22:30:11 811 6

原创 Flink使用指南: Kafka流表关联HBase维度表

系列文章目录Flink使用指南: Watermark新版本使用Flink使用指南: Flink SQL自定义函数目录系列文章目录前言maven依赖创建Kafka流表创建HBase维度表创建Sink表计算逻辑总结前言Flink：1.12.4Kafka：2.4HBase: 2.3在企业实时数仓建设过程中，需要制作DWD明细层的业务宽表，结合业务场景调研了一下使用Flink做实时宽表的方案，发现使用窗口join可能存在丢数据的风险，最

2021-07-01 22:45:33 1663 4

原创 Flink使用指南: Watermark新版本使用

系列文章目录Flink使用指南: Flink SQL自定义函数目录系列文章目录前言一、新版本API区别二、WaterMark1.watermark简介2.watermark使用3.内置watermark生成器3.1.单调递增时间戳分配器3.2.固定延迟时间戳分配器总结前言Flink基于事件时间(EventTime)处理数据时需要指定水印(WaterMark)来标记数据处理到哪里,最近生产上把Flink版本从1.10升级到了1.12版本，发现WaterM

2021-06-28 23:41:56 1394 5

原创 Flink使用指南: Flink SQL自定义函数

系列文章目录Flink使用指南提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pand..

2021-06-18 18:08:32 4791 3

原创 Flink源码分析: Flink JDBC Upsert模式实现原理

Flink源码专辑:Flink源码分析(一): 重启策略机制RestartStrategyFlink源码分析(二): 广播状态流实现规格更新或字段参数变更前言：版权说明：本专栏是作者在日常工作期间对技术的不断深入研究后的沉淀，辛苦码字总结而成,如有问题，欢迎指正。欢迎同行加入大数据技术群QQ：427560730版本号：Flink1.10.0在使用Flink SQL模式时，可以选择参数为’update-mode’=‘Upsert’，今天我们就跟着这个参数来看看flink jdbc connecto

2020-12-30 18:47:05 2916 1

原创 Flink源码分析: 广播状态流实现动态更新或字段参数变更

前言：在使用Flink流式计算时，代码功能实现重要的同时，后期的可维护性一样很重要。作者在开发过程中就遇见过这样一个场景：如果实时计算过程中，我源表突然增加一个字段怎么办，难道Flink程序要改代码重启吗，虽然Flink是有Savepoint机制，但是这样还是会造成延迟，而且后期维护不是很友好。为了解决这样问题，小编发现了一个Flink的一个功能很强大: 广播状态流机制。BroadCast State Stream：...

2020-08-04 14:54:44 1692 3

原创 Flink源码分析: 重启策略机制RestartStrategy

版权说明：本专栏是作者在日常工作期间对技术的不断深入研究后的沉淀，辛苦码字总结而成。严禁转载，严禁作为商业用途转发。欢迎同行加入大数据技术群QQ：427560730版本号：Flink1.10.0重启策略概览：public static RestartStrategies.RestartStrategyConfiguration noRestart() { return new RestartStrategies.NoRestartStrategyConfiguration();

2020-06-22 16:56:47 849 1

原创 Java多线程访问全局变量，值为Null情况

多线程

2022-07-13 16:17:57 1235 1

原创 [树形结构]：通过多个顶点查询完整路径的目录结构

数据结构

2022-05-19 22:51:53 520

原创 Mysql实现父子递归(父查子，子查父)

新建一张关系表：CREATE TABLE `ds_relation_folder` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '自增Id', `parent_folder_id` int(11) NOT NULL COMMENT '父类文件夹Id', `child_folder_id` int(11) DEFAULT NULL COMMENT '子文件夹Id', `create_time` timestamp NOT NULL DEF

2022-04-30 23:48:47 2582

原创利用JCommander解析Java程序的传入参数

JCommander可以帮我们解析Java的命令行工具，主要利用@Parameter配置自己所需要的参数；JCommander 案例在一般应用场景，我们可能只需要设置@Parameter以下几个属性值：* names 设置命令行参数，如-old* required 设置此参数是否必须* description 设置参数的描述* order 设置帮助文档的顺序* help 设置此参数是否为展示帮助文档或者辅助功能public class CommandArgs { @Para

2022-01-20 18:02:35 621

原创 StarRocks数据库常用SQL整理

集群管理--展示当前集群配置admin show config--使用like谓词搜索当前Fe节点的配置ADMIN SHOW FRONTEND CONFIG LIKE '%check_java_version%';--展示某个表或分区副本分布状态admin show replica distribution--查看表的分区的副本分布admin show replica distribution FROMfromdb1.tbl1 partition(p1, p2);--增加节点al

2021-12-13 22:03:36 3928 4

原创【Netty实战】EventLoopGroup 和 EventLoop

Netty实战

2021-12-13 19:31:38 259

原创【SpringBoot】报错信息整理

No serializer found for class org.hibernate.proxy.pojo.bytebuddy.ByteBuddyInterceptor and no properties discovered to create BeanSerializer原因是：在实体类中发现有字段为null，在转化成json的时候，fasterxml.jackson将对象转换为json报错解决办法在实体类上面添加：@JsonIgnoreProperties(value = { "..

2021-10-14 13:32:17 144

转载 HBase中HFile存储结构解析

转载：http://hbasefly.com/2016/03/25/hbase-hfile/HFile是HBase存储数据的文件组织形式，参考BigTable的SSTable和Hadoop的TFile实现。从HBase开始到现在，HFile经历了三个版本，其中V2在0.92引入，V3在0.98引入。HFileV1版本的在实际使用过程中发现它占用内存多，HFileV2版本针对此进行了优化，HFileV3版本基本和V2版本相同，只是在cell层面添加了Tag数组的支持。鉴于此，本文主要针对V2版本进行分..

2021-08-26 16:08:22 1461

转载 Flink使用指南：深入理解Flink SQL工作机制

Flink SQL 引擎会将 Physical Plan 通过 Code Generation 翻译为 Transformations，再进一步编译为可执行的 JobGraph。2.4 Physical Planning on Stream以上介绍了 Flink SQL 引擎的整体工作流，上述例子是假定以批模式编译的，下面我们来介绍一下以流模式编译时，在生成 Physical Plan 过程中的一个重要机制：Retraction Mechanism （aka. Changelog Mechanism

2021-08-25 16:36:30 1400

原创 Flink使用指南：TwoPhaseCommitSinkFunction实现二阶段提交保证数据一致性

系列文章目录Flink使用指南：Checkpoint机制，完全搞懂了，你就是大佬！Flink使用指南: 面试必问内存管理模型，进大厂一定要知道！Flink使用指南: Kafka流表关联HBase维度表Flink使用指南: Watermark新版本使用Flink使用指南: Flink SQL自定义函数1. 原理思想Flink自带的TwoPhaseCommitSinkFunction可以实现2pc提交方式保证数据一致性，我们先来看下实现这个类的方法：2pc提...

2021-08-18 11:06:09 3961 10

原创【Bug记录】：利用StreamSets的Kafka组件写入HBase后，读取HBase数据时Decimal类型数据异常

今天在实时读取HBase维度数据时发现取数据时有问题，Deicmal类型的数据异常，经过排查推理发现最后是Kafka数据通过StreamSets写入时存在问题：问题原因：Kafka里存的是Json数据，StreamSets通过解析JSON数据后把每个字段值写入HBase，因为JSON里字段是没有具体数据类型的，StreamSets可能会把字段转成字符串后解析成二进制写入HBase，这里就造成存储HBase的Decimal类型数据精度存在问题。解决办法：新增一个Field Type Conve

2021-08-17 15:58:25 337 1

转载 JAVA: JUC中CAS概念详解

目录什么是CASCAS使用示例CAS 问题ABA问题循环时间长开销大只能保证一个共享变量的原子操作什么是CASCAS的全称为Compare-And-Swap，直译就是对比交换。是一条CPU的原子指令，其作用是让CPU先进行比较两个值是否相等，然后原子地更新某个位置的值，经过调查发现，其实现方式是基于硬件平台的汇编指令，就是说CAS是靠硬件实现的，JVM只是封装了汇编调用，那些AtomicInteger类便是使用了这些封装后的接口。简单解释：CAS操作需要输入两个数.

2021-08-12 13:39:14 442 1

原创 Flink源码分析：基于事件时间场景下WaterMark源码分析

系列文章目录Flink源码分析: 重启策略机制RestartStrategyFlink源码分析: 广播状态流实现动态更新或字段参数变更Flink源码分析: Flink JDBC Upsert模式实现原理前言这周比较忙，没时间写博客，趁着周五抓紧写一篇，保证业绩。努力的打工人前两天在群里看到一个小伙伴说他在面试时被面试官问了一套Flink的WaterMark源码，被问了简直一脸懵逼，最后惨遭回去等通知吧....想想自从把公司生产线的Flink从1.10升级到1.12版本后对Wate

2021-07-30 15:50:26 401

原创【Kafka】常见知识点整理，一定要收藏！

1. 为什么要使用 kafka，为什么要使用消息队列缓冲和削峰：上游数据时有突发流量，下游可能扛不住，或者下游没有足够多的机器来保证冗余，kafka在中间可以起到一个缓冲的作用，把消息暂存在kafka中，下游服务就可以按照自己的节奏进行慢慢处理。解耦和扩展性：项目开始的时候，并不能确定具体需求。消息队列可以作为一个接口层，解耦重要的业务流程。只需要遵守约定，针对数据编程即可获取扩展能力。冗余：可以采用一对多的方式，一个生产者发布消息，可以被多个订阅topic的服务消费到，供多个毫无关联的业务使

2021-07-26 10:25:23 324

原创 Flink使用指南：Flink SQL聚合场景下的优化方案，一定要收藏！

系列文章目录Flink使用指南: 教你Flink SQL自定义Connector开发，使用SQL入库更方便！Flink使用指南：Flink设置全局变量，并在函数中获取，让你的代码更加优雅！Flink使用指南：Checkpoint机制，完全搞懂了，你就是大佬！Flink使用指南: 面试必问内存管理模型，进大厂一定要知道！Flink使用指南: Kafka流表关联HBase维度表Flink使用指南: Watermark新版本使用Flink使用指南: Flink SQL自定义函数..

2021-07-21 11:28:42 1544 1

原创 OLAP数据库高级优化: 向量化计算的原理

这篇文章写的很专业，记录下https://www.jianshu.com/p/fe7d5e2d66e7

2021-07-20 18:05:04 681 1

转载 MapReduce环形缓冲区MapOutputBuffer，kvBuffer代码原理分析

原文链接：https://blog.csdn.net/weixin_43955361/article/details/110628886环形缓冲区相关类和属性说明MapTask$MapOutputBuffer默认的环形缓冲区类，可以通过job配置文件的参数mapreduce.job.map.output.collector.class进行设置。sorter默认的排序类，可以通过job配置文件参数map.sort.class进行设置，此类必须是IndexedSorter类的子类。

2021-07-19 21:51:30 560

原创 Flink使用指南: 教你Flink SQL自定义Connector开发，使用SQL入库更方便！

系列文章目录Flink使用指南：Flink设置全局变量，并在函数中获取，让你的代码更加优雅！Flink使用指南：Checkpoint机制，完全搞懂了，你就是大佬！Flink使用指南: 面试必问内存管理模型，进大厂一定要知道！Flink使用指南: Kafka流表关联HBase维度表Flink使用指南: Watermark新版本使用Flink使用指南: Flink SQL自定义函数前言最近的工作主要是在向实时计算平台方向迁移，之前的实时计算任务都是用Flink Dat.

2021-07-17 11:46:57 3040 2

原创使用FastJson的Object对象转成字符串类型时自动过滤Null值问题

问题描述：在使用fastJson解析数据时，生成了一个新的jsonObject对象，最后我把新的jsonObject转成字符串，之后发现fastJson自动过滤了Null值，很懵逼....解决办法：JSON.toJSONString(newJson, SerializerFeature.WriteMapNullValue)序列化时带上这个参数即可。...

2021-07-14 15:14:47 344

转载通俗易懂的HDFS读写流程，赶紧收藏吧

HDFS读流程 client跟namenode通信查询元数据，namenode通过查询元数据，找到文件块所在的datanode服务器挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流 datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验，大小为64k）客户端以packet为单位接收，现在本地缓存，然后写入目标文件 HDFS写流程客户端跟namenode通信请求上传文件，nam..

2021-07-13 17:39:19 146

原创基于JDK1.8的JVM内存模型概述

JVM的内存结构分布图这里介绍的是JDK1.8 JVM内存模型。1.8同1.7比，最大的差别就是：元数据区取代了永久代。元空间的本质和永久代类似，都是对JVM规范中方法区的实现。不过元空间与永久代之间最大的区别在于：元数据空间并不在虚拟机中，而是使用本地内存。程序计数器每个线程一块，指向当前线程正在执行的字节码代码的行号。如果当前线程执行的是native方法，则其值为null。Java虚拟机栈线程私有，生命周期与线程同进同退。每个Java方法在被调用的时候都会创建一个栈帧，并入.

2021-07-10 10:27:02 815

原创 ReentrantLock的复习总结，赶紧收藏！！

前言在JAVA高并发编程中，为了保证线程安全，我们通常会给线程加锁保证线程安全，但是通常如果你仅仅知道加锁就够了话，那你可能只是入门小学生，作为一个伟大的资深程序猿，肯定要对一个技术刨根问题，不然怎么在圈子里混下去....接下来咱们就来一起总结下面试常会问的ReentrantLock重入锁概念。锁的分类下面是博主以前总结的关于锁的思维导图，赶紧点赞收藏吧！！！ReentrantLock的自我介绍Hi~程序猿们大家好，我是你们要找的ReentrantLock。我是锁这个大家庭里..

2021-07-08 11:12:18 162 2

原创 Flink使用指南：Flink操作命令基础整理 (日常更新中...)

系列文章目录Flink使用指南：Checkpoint机制，完全搞懂了，你就是大佬！Flink使用指南: 面试必问内存管理模型，进大厂一定要知道！Flink使用指南: Kafka流表关联HBase维度表Flink使用指南: Watermark新版本使用Flink使用指南: Flink SQL自定义函数flink -run命令：-c,--class <classname> : 需要指定的main方法的类-C,--classpath <url> : 向

2021-07-06 16:05:38 3272 3

原创 HBase实践：HBase2.x协处理器同步数据到数据仓库（那些你不知道的坑）

目录前言一. 什么是协处理器ObserverCoprocessorEndpoint Coprocessor二.开发案列总结前言HBase是基于Hadoop存储的一种超大型KV数据库，从字面意思可以看出HBase对KV结构支持比较友好，虽然现在还支持Phoenix查询，但是对于很多应用场景中，我们需要HBase廉价的存储和支持超大高并发查询的性能，但是我们不仅仅是想通过rowkey来获取对应的数据，还可能通过其他字段获取，什么我想像普通数据库一样求和，统计数量都难以达...

2021-07-05 23:45:36 487 4

原创 Flink sql写入Postgresql时解决非空列存在Null值办法

报错信息如下:aused by: org.apache.flink.table.api.TableException: Column 'som_sysno' is NOT NULL, however, a null value is being written into it. You can set job configuration 'table.exec.sink.not-null-enforcer'='drop' to suppress this exception and drop such

2021-07-01 19:07:09 2946 1

CDH-6.2.0安装教程.docx

flink-connector-adbpg-1.11.1-jar-with-dependencies_beta_0623v2.jar

关于javax.xml.parsers.ParserConfigurationException

项目在服务器上跑时出现报错问题 javax.xml.parsers

Maven项目出现报错：the type is not generic

bad symbolic reference. A signature in的问题怎么解决啊！！