自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Flink任务日志写到kafka【最新1.12,1.13】

这篇文章如果对你有帮助,记得点赞哦!有问题也可以给我评论~一、背景公司的日志希望能够同一到一个Kibana去做一个同一的展示,那就需要将任务的日志写到kafka。Flink1.12默认的日志框架就是log4j2,那么配置的方式跟之前log4j的方式有了一些区别,这边也踩了一些坑才解决。二、需要解决的痛点    - 如何区分JobManager和TaskManager的日志    - 如何将jobName信息添加到每条日志中,为后期的日志聚合提供方便三、详细配置介绍1、log4j.proper

2021-06-15 19:30:54 2782 16

原创 最简单的clickhouse监控 —— grafana监控

一、简介本文这种clickhouse的监控方式只需要用到一个组件—— grafana,只需要两个步骤就可完成监控,第一个步骤给grafana安装一个clickhouse的数据源插件 ,第二个步骤配置监控的dashboard,即可完成监控。(默认你已经安装好了grafana和clickhouse。)二、步骤两步走1、给grafana安装上clickhouse的数据源插件(1)下载安装vertamedia-clickhouse-datasource:跳转地址(2)把下载好的安装包解压好,然后放到gra

2021-04-13 19:36:42 1513 3

原创 解决flink消费kafka过期数据和目前存量数据的计算(未来的方向)

背景:目前公司业务需要统计超过7天以上的特征统计,但是kafka只存7天的数据,如果只想通过flink sql去计算30天的用户特征要求当天生效,这是完不成的,但是看到下面的分享,感觉未来的方向有了。一、2021 Apache Flink Meetup - Hosted by Netflix 的youtobe视频分享目前这是Netflix的分享,目前还未将backfilling 的功能贡献回 iceberg 社区https://www.youtube.com/watch?v=rtz3p_iijP8

2021-02-02 18:06:16 2060 2

原创 java.io.FileNotFoundException: File does not exist: hdfs://xxx

一、产生问题背景我们公司正在准备从cdh迁回社区版hadoop集群,启动flink任务的时候,还未运行就直接报错:Caused by: org.apache.flink.yarn.YarnClusterDescriptor$YarnDeploymentException: The YARN application unexpectedly switched to state FAILED during deployment.Diagnostics from YARN: Application appl

2021-01-27 11:35:59 7603 2

原创 Hadoop和hive-exec-3.1.2的Guava的版本冲突导致Flink任务启动异常

一、背景1、出现异常公司准备从CDH迁回社区版Hadoop集群,直接把Hadoop升级为比较新的3.30版本,Hive升级为3.12版本。Flink编译的是1.12.0版本,启动自己的测试直接报出下面的错,甚至启动官方的demo任务也会报相同的错。Caused by: java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument (ZLjava/lang/String;Ljava/lang/Object;

2021-01-27 11:32:23 3632 4

原创 HDFS & Yarn 即Hadoop by Jmx on Promethues + Grafana的监控(三) —— Grafana的Dashboard配置(以 Yarn 为例)

一、整体效果Yarn的监控最主要是能看到目前活跃的ResourceManager,同时能够显示目前的Nodemanager的活跃情况。其次是能够看到RM和NM的可用内存、可用Cpu、GC、RPC等的监控。还有就是比如namenode挂掉就能报警等。二、举几个案例可用自行配置简单的配置左Y轴右Y轴的单位,rate()方法的使用等简单的操作自行百度其他文章,这些分享一些骚操作。1、怎么显示RM的状态(1)首先要配置出下图这个样子a、选择你的数据源Promethuesb、在metric里选择Ha

2021-01-22 18:28:35 1511 4

原创 HDFS & Yarn 即Hadoop by Jmx on Promethues + Grafana的监控(二) —— Promethues数据源配置

注意:如果还未安装Promethues,参考HDFS & Yarn on Promethues + Grafana的监控(一) —— Promethues的安装一、配置Promethues的数据源1、下载jmx_prometheus_javaagent-0.13.0.jar包:wget https://repo1.maven.org/maven2/io/prometheus/jmx/jmx_prometheus_javaagent/0.13.0/jmx_prometheus_java

2021-01-22 18:25:58 1695 8

原创 HDFS & Yarn 即Hadoop by Jmx on Promethues + Grafana的监控(一) —— Promethues的安装

一、安装Go环境因为Promethues是用go语言开发,所以要先安装一个go环境1、下载安装包地址:Linux :go1.8.3.linux-amd64.tar.gz (86MB)Windows :go1.8.3.windows-amd64.msi (78MB)Mac :go1.8.3.darwin-amd64.tar.gz (85MB)Source: go1.8.3.src.tar.gz (15MB)2、解压 tar -C /usr/local -xzf go1.8.

2021-01-22 18:02:29 439

原创 Grafana(据说全网最详细配置教程)

#见我笔记https://www.wolai.com/fishman_tolearn/ccb6Z7P4kBr1JQ3m1r2CLs?theme=light

2021-01-15 18:11:05 3230

原创 Flink部署模式的调研(看完你就知道你公司适合哪种)

一、调研的三种模式:1、Flink On Yarn(1)PerJob模式一个任务一个集群(2)Session模式多个任务一个Session,可以启多个Session2、Standlone模式多个任务一个集群,可以启动多个集群,还可以在每个节点另起多个taskmanager二、不同模式的对比perjob_yarnsession_yarnstandlone_cluster占优集群一个任务一个集群多个任务一个集群,可以有多个集群一个集群perjob_yarn &

2021-01-14 15:24:12 238

原创 Flink编译(包括最新Flink1.12编译)

一、源码下载1、github地址(选择对应的release版本)https://github.com/apache/flink/tree/release-1.122、关于flink 分支的选择最好选用release-xxx版本,少用tag版本3、flink不同版本之间的编译区别Flink不同版本间的编译区别,我的另一篇文档二、编译1、编译命令:我的maven版本是3.25,也用了多线程编译,刚好我的版本也是官网推荐是3.25编译cd xxxx/flinkmvn clean instal

2021-01-14 15:21:32 1554

原创 Flink不同版本间的编译区别

一、1.11.0版本及以前以前的方式是先编译flink-shaded-hadoop这个包,将hadoop和hive指定你对应生产的版本编译出flink-shaded-hadoop-2-uber_xxx包,然后将这个包放在lib的目录下,flink启动任务的时候去lib加载。想用这种方式可以参考两个链接:https://blog.csdn.net/weixin_44628586/article/details/107106547https://blog.csdn.net/guiyifei/ar

2021-01-14 15:20:09 1020 2

原创 Flink HistoryServer配置(简单三步完成)

#HistoryServer允许您查询JobManager存档的已完成作业的状态和统计信息。(官网原话)最适合用于:了解 flink过去完成任务的状态,以及有状态作业的恢复(保存了最后一次的checkpoint地址)官网地址:https://ci.apache.org/projects/flink/flink-docs-release-1.11/monitoring/historyserver.html官网配置参数:https://ci.apache.org/projects/flink/flink

2021-01-14 15:18:44 2647 1

原创 Flink日志配置(基于flink1.11.1)

###滚动日志的配置flink日志的配置主要是将配置放在flink/conf下面才起作用下面是我的滚动日志的配置,能够实现将过期的日志清掉,只保存最新7份50M的日志。实现滚动的日志效果图:配置文件: /flink/conf/log4j.properties# This affects logging for both user code and FlinkrootLogger.level = INFOrootLogger.appenderRef.rolling.ref = Rolli

2021-01-14 15:17:05 619

原创 Flink Checkpoint和Savepoint大小差那么大你知道吗?

偶然的“有空”的发现用了flink半年多了,平常有使用checkpoint和savepoint,比较关注任务的checkpoint的大小,但是没有关注两者大小上的区别,正好为了应对国庆节可能会遇到的故障演练,就关注到了两者的区别。flink UI Checkpoint监控图可以看到checkpoint和savepoint的大小差别:1.checkpoint状态大小比较小是因为我开启了rocksDB的增量模式,所以UI上看到的Checkpointed Data Size官网上说明是增量的数据。翻看

2021-01-14 15:16:07 946 1

原创 Flink CDC 原理及生产实践(持续更新中 ...)

MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。本文档根据ververica官网翻译了如何设置MySQL CDC连接器以对MySQL数据库运行SQL查询。一、依赖关系为了设置MySQL CDC连接器,下表提供了使用构建自动化工具(例如Maven或SBT)和带有SQL JAR捆绑包的SQL Client的两个项目的依赖项信息。1、Maven依赖<dependency> <groupId>com.alibaba.ververica</groupI

2021-01-14 15:14:17 1287

原创 最新版本Flink 1.12.0 的sql-cli配置连接yarn-session

一、主要参考见:https://mp.weixin.qq.com/s/99ehmNzJVwW3cOrw_UkGsghttps://mp.weixin.qq.com/s/YuR-s5zCtBz_5ku_bttbawhttps://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/hive/#dependencieshttps://ci.apache.org/projects/flink/flink-doc

2021-01-14 15:09:47 1244 4

原创 Flink Sql on Hive 的生产遇到的坑以及优化(持续更新 ...)

1、HiveSource-xxxx.xxxx’s parallelism (200) is higher than the max parallelism (128). Please lower the parallelism or increase the max parallelism.(1)报错这是sql-cli 连接hive,查一张表报的错[ERROR] Could not execute SQL statement. Reason:org.apache.flink.runtime.JobE

2021-01-14 15:08:30 4292 13

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除