FishMAN_已存在-CSDN博客

原创 Flink任务日志写到kafka【最新1.12，1.13】

这篇文章如果对你有帮助，记得点赞哦！有问题也可以给我评论~一、背景公司的日志希望能够同一到一个Kibana去做一个同一的展示，那就需要将任务的日志写到kafka。Flink1.12默认的日志框架就是log4j2，那么配置的方式跟之前log4j的方式有了一些区别，这边也踩了一些坑才解决。二、需要解决的痛点 - 如何区分JobManager和TaskManager的日志 - 如何将jobName信息添加到每条日志中，为后期的日志聚合提供方便三、详细配置介绍1、log4j.proper

2021-06-15 19:30:54 2782 16

原创最简单的clickhouse监控 —— grafana监控

一、简介本文这种clickhouse的监控方式只需要用到一个组件—— grafana，只需要两个步骤就可完成监控，第一个步骤给grafana安装一个clickhouse的数据源插件，第二个步骤配置监控的dashboard，即可完成监控。（默认你已经安装好了grafana和clickhouse。）二、步骤两步走1、给grafana安装上clickhouse的数据源插件（1）下载安装vertamedia-clickhouse-datasource：跳转地址（2）把下载好的安装包解压好，然后放到gra

2021-04-13 19:36:42 1513 3

原创解决flink消费kafka过期数据和目前存量数据的计算（未来的方向）

背景：目前公司业务需要统计超过7天以上的特征统计，但是kafka只存7天的数据，如果只想通过flink sql去计算30天的用户特征要求当天生效，这是完不成的，但是看到下面的分享，感觉未来的方向有了。一、2021 Apache Flink Meetup - Hosted by Netflix 的youtobe视频分享目前这是Netflix的分享，目前还未将backfilling 的功能贡献回 iceberg 社区https://www.youtube.com/watch?v=rtz3p_iijP8

2021-02-02 18:06:16 2060 2

原创 java.io.FileNotFoundException: File does not exist: hdfs://xxx

一、产生问题背景我们公司正在准备从cdh迁回社区版hadoop集群，启动flink任务的时候，还未运行就直接报错：Caused by: org.apache.flink.yarn.YarnClusterDescriptor$YarnDeploymentException: The YARN application unexpectedly switched to state FAILED during deployment.Diagnostics from YARN: Application appl

2021-01-27 11:35:59 7603 2

原创 Hadoop和hive-exec-3.1.2的Guava的版本冲突导致Flink任务启动异常

一、背景1、出现异常公司准备从CDH迁回社区版Hadoop集群，直接把Hadoop升级为比较新的3.30版本，Hive升级为3.12版本。Flink编译的是1.12.0版本，启动自己的测试直接报出下面的错，甚至启动官方的demo任务也会报相同的错。Caused by: java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument (ZLjava/lang/String;Ljava/lang/Object;

2021-01-27 11:32:23 3632 4

原创 HDFS & Yarn 即Hadoop by Jmx on Promethues + Grafana的监控（三） —— Grafana的Dashboard配置（以 Yarn 为例）

一、整体效果Yarn的监控最主要是能看到目前活跃的ResourceManager，同时能够显示目前的Nodemanager的活跃情况。其次是能够看到RM和NM的可用内存、可用Cpu、GC、RPC等的监控。还有就是比如namenode挂掉就能报警等。二、举几个案例可用自行配置简单的配置左Y轴右Y轴的单位，rate()方法的使用等简单的操作自行百度其他文章，这些分享一些骚操作。1、怎么显示RM的状态（1）首先要配置出下图这个样子a、选择你的数据源Promethuesb、在metric里选择Ha

2021-01-22 18:28:35 1511 4

原创 HDFS & Yarn 即Hadoop by Jmx on Promethues + Grafana的监控（二） —— Promethues数据源配置

注意：如果还未安装Promethues，参考HDFS & Yarn on Promethues + Grafana的监控（一） —— Promethues的安装一、配置Promethues的数据源1、下载jmx_prometheus_javaagent-0.13.0.jar包：wget https://repo1.maven.org/maven2/io/prometheus/jmx/jmx_prometheus_javaagent/0.13.0/jmx_prometheus_java

2021-01-22 18:25:58 1695 8

原创 HDFS & Yarn 即Hadoop by Jmx on Promethues + Grafana的监控（一） —— Promethues的安装

一、安装Go环境因为Promethues是用go语言开发，所以要先安装一个go环境1、下载安装包地址：Linux ：go1.8.3.linux-amd64.tar.gz (86MB)Windows ：go1.8.3.windows-amd64.msi (78MB)Mac ：go1.8.3.darwin-amd64.tar.gz (85MB)Source： go1.8.3.src.tar.gz (15MB)2、解压 tar -C /usr/local -xzf go1.8.

2021-01-22 18:02:29 439

原创 Grafana（据说全网最详细配置教程）

#见我笔记https://www.wolai.com/fishman_tolearn/ccb6Z7P4kBr1JQ3m1r2CLs?theme=light

2021-01-15 18:11:05 3230

原创 Flink部署模式的调研（看完你就知道你公司适合哪种）

一、调研的三种模式：1、Flink On Yarn（1）PerJob模式一个任务一个集群（2）Session模式多个任务一个Session，可以启多个Session2、Standlone模式多个任务一个集群，可以启动多个集群，还可以在每个节点另起多个taskmanager二、不同模式的对比perjob_yarnsession_yarnstandlone_cluster占优集群一个任务一个集群多个任务一个集群，可以有多个集群一个集群perjob_yarn &

2021-01-14 15:24:12 238

原创 Flink编译（包括最新Flink1.12编译）

一、源码下载1、github地址（选择对应的release版本）https://github.com/apache/flink/tree/release-1.122、关于flink 分支的选择最好选用release-xxx版本，少用tag版本3、flink不同版本之间的编译区别Flink不同版本间的编译区别，我的另一篇文档二、编译1、编译命令：我的maven版本是3.25，也用了多线程编译，刚好我的版本也是官网推荐是3.25编译cd xxxx/flinkmvn clean instal

2021-01-14 15:21:32 1554

原创 Flink不同版本间的编译区别

一、1.11.0版本及以前以前的方式是先编译flink-shaded-hadoop这个包，将hadoop和hive指定你对应生产的版本编译出flink-shaded-hadoop-2-uber_xxx包，然后将这个包放在lib的目录下，flink启动任务的时候去lib加载。想用这种方式可以参考两个链接：https://blog.csdn.net/weixin_44628586/article/details/107106547https://blog.csdn.net/guiyifei/ar

2021-01-14 15:20:09 1020 2

原创 Flink HistoryServer配置（简单三步完成）

#HistoryServer允许您查询JobManager存档的已完成作业的状态和统计信息。(官网原话)最适合用于：了解 flink过去完成任务的状态，以及有状态作业的恢复（保存了最后一次的checkpoint地址）官网地址：https://ci.apache.org/projects/flink/flink-docs-release-1.11/monitoring/historyserver.html官网配置参数：https://ci.apache.org/projects/flink/flink

2021-01-14 15:18:44 2647 1

原创 Flink日志配置（基于flink1.11.1）

###滚动日志的配置flink日志的配置主要是将配置放在flink/conf下面才起作用下面是我的滚动日志的配置，能够实现将过期的日志清掉，只保存最新7份50M的日志。实现滚动的日志效果图：配置文件： /flink/conf/log4j.properties# This affects logging for both user code and FlinkrootLogger.level = INFOrootLogger.appenderRef.rolling.ref = Rolli

2021-01-14 15:17:05 619

原创 Flink Checkpoint和Savepoint大小差那么大你知道吗？

偶然的“有空”的发现用了flink半年多了，平常有使用checkpoint和savepoint，比较关注任务的checkpoint的大小，但是没有关注两者大小上的区别，正好为了应对国庆节可能会遇到的故障演练，就关注到了两者的区别。flink UI Checkpoint监控图可以看到checkpoint和savepoint的大小差别：1.checkpoint状态大小比较小是因为我开启了rocksDB的增量模式，所以UI上看到的Checkpointed Data Size官网上说明是增量的数据。翻看

2021-01-14 15:16:07 946 1

原创 Flink CDC 原理及生产实践（持续更新中 ...）

MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。本文档根据ververica官网翻译了如何设置MySQL CDC连接器以对MySQL数据库运行SQL查询。一、依赖关系为了设置MySQL CDC连接器，下表提供了使用构建自动化工具（例如Maven或SBT）和带有SQL JAR捆绑包的SQL Client的两个项目的依赖项信息。1、Maven依赖<dependency> <groupId>com.alibaba.ververica</groupI

2021-01-14 15:14:17 1287

原创最新版本Flink 1.12.0 的sql-cli配置连接yarn-session

一、主要参考见：https://mp.weixin.qq.com/s/99ehmNzJVwW3cOrw_UkGsghttps://mp.weixin.qq.com/s/YuR-s5zCtBz_5ku_bttbawhttps://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/hive/#dependencieshttps://ci.apache.org/projects/flink/flink-doc

2021-01-14 15:09:47 1244 4

原创 Flink Sql on Hive 的生产遇到的坑以及优化（持续更新 ...）

1、HiveSource-xxxx.xxxx’s parallelism (200) is higher than the max parallelism (128). Please lower the parallelism or increase the max parallelism.（1）报错这是sql-cli 连接hive,查一张表报的错[ERROR] Could not execute SQL statement. Reason:org.apache.flink.runtime.JobE

2021-01-14 15:08:30 4292 13

weixin_44500374的博客