麻辣GIS-CSDN博客

原创 Flink读取Kafka数据写入Hive

本文针对数据库CDC(change data capture)场景设计，探讨基于Flink1.12最新版本提供的实时写入Hive的技术可行性，下面为本地IDEA程序案例可供参考。

2021-03-14 17:46:41 8812 8

转载 clickhouse-client连接报错

的配置文件＜listen_host＞::＜/listen_host＞后，2、再去连接clickhouse客户端，连接失败。说明本机没有开放ipv6，只能对ipv4生效。4、修改listen_host的值。

2022-11-06 19:56:26 3215

转载处理 Code:516. Authentication failed: password is incorrect or there is no user with such name.

表时，没有添加各服务器的用户名和密码，所以访问不到别的服务器的数据，在我们的。排查后发现，是集群开始安装时设置了密码，而配置。问题解决，开始开心的学习.....

2022-11-06 19:54:36 1071

转载 Git解决fatal: not in a git directory

Git解决fatal: not in a git directory

2022-10-21 11:26:12 2381

翻译深入解析 Flink 细粒度资源管理

相同的slot执行所有task可能会导致非最佳资源利用率。相同slot位的资源必须能够满足最高资源要求，这对于其他要求将是浪费的。当涉及到 GPU 等昂贵的外部资源时，这种浪费会变得更加难以承受。因此，需要细粒度的资源管理，利用不同资源的slot来提高这种场景下的资源利用率。

2022-08-20 17:28:44 246

翻译 Flink整合面向用户的数据流SDKs/API(Flink关于弃用Dataset API的论述)

我们将不描述如何增强Table API/SQL和DataStream的所有技术细节。目标是在弃用DataSet API的想法上达成共识。必须有后续的flip来描述我们所维护的api的必要更改。

2022-06-02 16:06:09 357

原创 Flink JobManager | TaskManager内存模型

Flink内存模型分析JobManager内存模型TaskManager内存模型内存模型分析Flink使用内存（Total Flink Memory）=框架堆内存+框架堆外内存+task堆内存+task堆外内存+网络缓冲内存+托管内存进程内存（Total Process Memory）=Flink使用内存+JVM元空间+JVM执行开销不建议同时设置进程总内存和 Flink总内存。这可能会造成内存配置冲突，从而导致部署失败。通常情况下，不建议对框架堆内存和框架堆外内存进行调整。如果只配置了进

2022-05-01 22:17:56 1249

原创 Flink使用Pod Template将状态快照(Checkpoint、Savepoint)存储在NFS

Flink 版本 1.13.3，使用 native k8s 部署模式，原采用 HDFS 作为状态快照（Checkpoint、Savepoint）的存储地址，但是由于仅使用了其 HDFS 作为状态快照存储地址，且 Hadoop 框架较重，在 k8s 集群中占用大量资源，现考虑将其替换为更轻量级的分布式文件系统——NFS。

2022-01-17 09:47:24 885

转载 Flink中如何实现一个自定义MetricReporter

什么是 Metrics在 flink 任务运行的过程中，用户通常想知道任务运行的一些基本指标，比如吞吐量、内存和 cpu 使用情况、checkpoint 稳定性等等。而通过 flink metrics 这些指标都可以轻而易举地获取到，避免任务的运行处于黑盒状态，通过分析这些指标，可以更好的调整任务的资源、定位遇到的问题、对任务进行监控。接下来本文将介绍 flink metrics 的一些基本概念与原理以及实践。Flink 对于指标监测有一套自己的实现，同时 flink 自身系统有一些固定的 metric

2021-11-20 16:01:03 1666

原创 flink+kafka的端到端一致性

上一篇中提到flink+kafka如何做到任务级顺序保证，而端到端一致性即为实现用户数据目标端与源端的准确一致，当源端数据发生更改时，保证目标端及时、正确、持久的写入更改数据。为实现端到端一致性应在顺序保证的基础上，实现一致性语义exactly once的保证。纵观各底层组件：Debezium、Kafka、Flink构成了端到端一致性中至关重要的每一环，应充分考虑、分析各组件的一致性语义特性的支持。为实现exactly once语义的一致性，必须提供处理过程的容错性以及处理结果的幂等性。处理过程的容错性是

2021-10-10 21:37:24 542

原创静态方法单元测试

将mockito-core换成mockito-inline<dependency> <groupId>org.mockito</groupId> <artifactId>mockito-inline</artifactId> <version>3.6.0</version> <scope>test</scope></dependency>先创建一个调

2021-09-22 21:19:20 1579

原创 kafka+flink任务级顺序保证

顺序保证难点本文主要分析 CDC 业务场景中任务级顺序保证，技术选型为：debezium、kafka、flink，其构成了顺序保证中至关重要的每一环，应该充分考虑、分析各组件的对于顺序的支持。首先 debezium 作为采集组件，其分别为 schema topic 和 data topic 提供了不同的时间字段，如下图 schema topic 中提供了事件时间，data topic 中提供了事件时间和采集时间，为后续数据处理提供了依据。Kafka 作为一款性能优秀的消息队列，在分布式事务中有着广

2021-08-23 18:23:33 1049

原创 k8s application模式自动部署flink任务

启动任务和更新任务public void start( DataprocessParam dataprocessParam, DataMap target, Pair<Boolean, String> ifWithSavePoint) { Kafka kafka = dataprocessParam.getKafka(); TaskInfo taskInfo = dataprocessParam.getTaskInfo(); //配置集群信息

2021-08-22 15:48:06 831

原创 flink相关概念介绍

Flink定义Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams.Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。Flink相关概念批处理是有界数据流处理的范例。在这种模式下，你可以选择在计算结果输出之前输入整个数据集，这也就意味着你可以对整个数据集

2021-07-19 20:21:33 306 1

原创 hive3.1.2安装(基于mysql存储元数据)

1.下载wget http://archive.apache.org/dist/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz2.解压tar -zxvf apache-hive-3.1.2-bin.tar.gz3.配置环境变量vim /etc/profileexport HIVE_HOME=/cdc/apache-hive-3.1.2-binexport PATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/

2021-06-14 12:23:13 235 1

原创 hadoop集群快速部署

1. 修改Linux主机名hostnamectl set-hostname dhf1或修改配置文件vim /etc/sysconfig/network NETWORKING=yesHOSTNAME=dhf12. 修改IPvim /etc/sysconfig/network-scripts/ifcfg-eth0systemctl restart network3. 修改主机名和IP的映射关系vim /etc/hosts192.xxx.xxx.227 dhf11

2021-06-11 20:05:04 478 3

原创 flink on native k8s by application mode

flink1.13于5月4日发布，版本迭代之快，更是体现了其势不可挡的发展速度。社区活跃度逐步攀升，当然少不了与云原生等技术的集成。本文主要讲解flink的原生k8s application模式部署步骤，原生k8本质上是flink内部集成了k8s，能够做到Taskmanager的弹性伸缩。而之所以采用application模式部署，是因其规避了session模式的资源隔离问题、per-job模式的集群生命周期问题，以及两者共同的客户端资源消耗问题，也因其显著优点被广泛用于生产环境。...

2021-05-09 11:48:22 1803 2

原创 kubeadmin部署k8s集群

kubeadmin部署k8s集群1.安装要求一台或多台机器，操作系统 CentOS7.x-86_x64硬件配置：2GB 或更多 RAM，2个 CPU 或更多 CPU，硬盘 30GB 或更多集群中所有机器之间网络互通可以访问外网，需要拉取镜像禁止 swap 分区2.系统初始化（所有节点执行）2.1 关闭防火墙： $ systemctl stop firewalld # 临时$ systemctl disable firewalld # 永久2.2 关闭 ...

2021-04-22 10:36:36 678 1

原创主键自增触发器报错违反唯一约束

创建序列create sequence polygonsonversion_seqincrement by 1start with 1nomaxvaluenocycle cache 10;创建触发器create or replace trigger polygonsonversion_triggerbefore insert on polygonsonversion...

2019-03-19 16:54:54 1193