kerryJiang666-CSDN博客

原创每天做到三个一

1.每天至少学习英文1小时2.每天至少运动1小时3.每天至少学习计时1小时

2021-10-29 08:45:31 128

在阅读之前肯定要先理解TaskManager的作用才能更好的阅读源码统一管理该物理节点上的所有Flink jod的task的运行，它的功能包括了task的启动销毁，内存管理，磁盘I/O,网络传输管理等组件：1.MemoryManager统一管理了flink的内存使用，内存被划分为相同大小的segment，通过申请不同数量的segment来分配不同大小的内存2种内存：on-head（预分区） off-head(按需分区)2.MemorySegmentMemoryManager 以 segmen

2021-08-08 23:17:37 215

原创 flink chain的条件

1.下游节点只有一个输入2.下游节点的操作符不为null3.上游节点的操作符不为null4.上下游节点在一个槽位共享组内5.下游节点的连接策略是always6.上游节点的连接策略是head或always7.edge的分区函数是ForwardPartitioner的实例8.上下游的并行度相等9.可以进行节点的连接操作...

2021-08-03 09:25:39 350

原创 flinksql create table 可设置的参数

CONSTRAINTS - constraints such as primary and unique keysGENERATED - computed columnsMETADATA - metadata columnsOPTIONS - connector options that describe connector and format propertiesPARTITIONS - partition of the tablesWATERMARKS - watermark declara

2021-07-22 22:33:55 713

原创 CheckpointConfig类参数

/** The default checkpoint mode: exactly once. */public static final CheckpointingMode DEFAULT_MODE = CheckpointingMode.EXACTLY_ONCE; checkpoint超时时间/** The default timeout of a checkpoint attempt: 10 minutes. */public static final long DEFAULT_TIMEOUT

2021-07-12 23:43:13 729

原创 flink源码阅读环境安装

环境：flink1.9,scala2.11，maven3.6，java1.8,idea步骤一:github下载flink1.9源码1.执行git clone https://github.com/apache/flink 下载代码2.进入flink目录，执行git branch -a 查看flink源码分支3.执行git checkout release-1.9切换到该分支二.maven 仓库配置（某些仓库可能速度比较慢，或者jar包不全) nexus-aliyun *,!je

2021-07-12 09:12:54 147

原创 flink 如何优化大状态作业

1.监控checkpoint和state2个关键指标：subtask checkpoint延迟时间barrier对齐的缓存数量（excatly-once)2.调整checkpoint参数自定义checkpoint的时间间隔3.rocksdb增量checkpoint4.rocksdb内存的三种配置block_cache_size:控制内存中的最大未压缩块数write_buffer_size:控制rocksdb中memtable的最大值max_write_buffer_number...

2021-06-30 14:47:56 321

原创 hive优化

1.jobs数比较多的作业运行效率比较低2.sum，count，max,min等UDAF,hadoop优化不怕数据倾斜问题3.set hive.groupby.skwindata=true(通用算法，不能适应特定业务背景)4.根据数据量合理设置mapreduce的task数5.对小文件6.列裁剪7.分区裁剪...

2021-06-28 15:45:53 68

原创 spark action operator

1.count2.take3.foreach4.collect5.countBykey6.countByvalue7.reduce

2021-06-28 14:39:33 61

原创数据治理怎么做

意义：是构建完善共享统一管理数据环境的基本保障和重要组成部分是把数据作为资产来管理的有效手段作用：确定了一系列岗位角色和相应的责任及管理流程保证了业务数据在采集，集中，转换，存储，应用整个过程中的完整性，准确性，一致性和时效性价值：企业进行数据治理的最大驱动力来自数据质量，通过提高数据质量实现更多的业务价值将实现业务目标作为数据管理和服务的核心驱动力，优化数据架构，提升数据仓库/信息化管理系统建设，支持管理能力的提高和精细化和决策的科学性数据治理包括哪些内容主要有元数据管理，数

2021-06-23 10:35:26 437

原创 flink restart startegy

Fixed delay restart strategy:The fixed delay restart strategy will try to restart the job a given number of times. If the maximum number of restarts is exceeded,The job will eventually fail. Between two consecutive restart attempts, the restart strategy

2021-06-20 15:33:38 126

原创 flink shuffle process

upstream write data：The record produced by the operator is serialized into a buffer data structure and inserted into the sub partition queuenetwork transmission:The upstream and downstream may be deployed in different Containers, and the upstream data nee

2021-06-18 15:26:28 149

原创 what is Bigdata

Bigdata definehuge data，The scale of the data involved is so huge that it is impossible to intercept, manage, process and organize the information that can be interpreted by human within a reasonable time by human4v charcater1.volume(规模性)2.velocity(高速性

2021-06-18 11:18:40 275

原创记一件小事

印度人： what is your name（三声)我： what is your what， can you speak again重复了好几次才听懂，学好英文还是很重要的，这2年要把英文弄流利

2021-04-30 17:23:33 70

原创这几年是否都在假装努力了

这几年是否都在假装努力了

2021-04-20 20:23:16 64

原创 flink 日志依赖

<dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-slf4j-impl</artifactId> <version>2.12.1</version> <scope>compile</scope> </dependency><dependency> <groupId&gt

2021-01-12 17:30:25 297

原创 kafka producer核心流程

引用：https://blog.csdn.net/weixin_40650734/article/details/106760541

2021-01-12 11:19:52 81

原创监听flink任务失败自动启动shell脚步

#! /bin/shPRO_NAME=flinkstart-1.0-SNAPSHOT.jarwhile true ; do NUM=`ps aux | grep -w ${PRO_NAME} | grep -v grep |wc -l` if [ "${NUM}" -lt "1" ];then echo "${PRO_NAME} was killed" sh flink-start.sh elif [ "${NUM}" -gt "1" ]...

2020-12-30 16:32:27 480

原创指标类型

基础指标：不能再进一步拆解的指标，可以直接计算出来的指标，如“订单数”，“交易额"衍生指标：在基础指标的基础上，通过某个特殊维度计算出的指标，如“微信订单数",“支付宝订单数”计算指标:通过若干个基础指标计算出来的指标，在业务角度无法再拆解的指标，如“售罄率”、“复购率”...

2020-12-17 10:00:31 882

原创 flink 的 Task slot

TaskManager是一个jvm进程，，并会以独立的线程来执行一个task或多个subtask。为了控制一个 TaskManager 能接受多少个 task，Flink 提出了 Task Slot 的概念。Flink 中的计算资源通过 Task Slot 来定义。每个 task slot 代表了 TaskManager 的一个固定大小的资源子集。例如，一个拥有3个slot的 TaskManager，会将其管理的内存平均分成三分分给各个 slot。将资源 slot 化意味着来自不同job的task不会为了

2020-12-09 13:53:38 1742

原创 flink状态设置过期时间

//设置2分钟过期 val ttlConfig = StateTtlConfig .newBuilder(Time.minutes(2)) .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite) .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired) .build val stateDesc...

2020-11-19 15:35:02 2298

原创 flink的异常数据一定要处理

前言：最近推了某些错误数据到kafka，导致正确的数据丢失解决方法：用flink的filter算子过滤掉错误数据

2020-11-06 17:20:25 1318 2

原创 flink 不要写2个相同的算子

问题：用flink消费kafka的时候有些数据一直消费不出来原因：流后面带了2个相同的算子val result: DataStream[(String, String, String)] = source_total.map(x =>//提取出字段信息Udfs.extract_info(x)).map(x =>Udfs.sortAndFixInfo(x))解决方法：将代码改成这样，后面只跟一个算子，问题就解决了val result: DataStream[(String,

2020-11-06 11:44:50 182

原创迁移hive数据

新集群的数据迁移到老集群，往往会遇到很多问题1.小文件多2.老集群性能比较差3.数据量大使用数据迁移工具nifi 该工具的特点是轻量，对小文件迁移支持度高，大文件迁移慢遇到的问题 1.曾经在老集群写spark程序合并小文件，但老集群性能比较低，程序跑了一晚上都没有合并完成一个月 2.将小集群的日分区合并成一个大文件，用nifi做迁移，发现速度没有得到提升，感觉还变慢了故先把老集群数据用nifi迁移到新集群，在新集群里面合并小文件迁移过程...

2020-07-27 14:24:06 180

原创 Oozie的default，stdout,stderr,syslog的日志的差别

这个 oozie 的日志级别，类似于 log4j 的日志级别， debug， info, warn, error 这个 stdout 和 stderr 表示标准输出和异常输出

2020-06-27 15:09:47 367

原创 Caused by: java.lang.ClassNotFoundException: org.apache.flink.configuration.ReadableConfig

可能是jar包冲突，或jar包版本不对

2020-06-05 10:48:33 1765

原创 cdh 集成hue和Oozie

1.环境cdh5.16.12.配置数据库//创建Oozie库create database oozie DEFAULT CHARSET utf8 COLLATE utf8_general_ci;//创建Hue库create database hue DEFAULT CHARSET utf8 COLLATE utf8_general_ci;//分配权限grant all on hue .* to scm@"%" Identified by “123456”;grant all on oozi

2020-05-12 23:46:35 366

原创 cdh安装hue数据库连接报错

报错：File “/opt/cloudera/parcels/CDH-5.16.1-1.cdh5.16.1.p0.3/lib/hue/build/env/lib/python2.7/site-packages/Django-1.6.10-py2.7.egg/django/core/management/base.py”, line 284, in executeself.validate()...

2020-03-22 17:45:58 286

原创一图理解map端和reduce端

2020-02-27 13:42:47 359

原创 namenode启动不起来

查看日志文件报如下错误org.apache.hadoop.hdfs.server.common.InconsistentFSStateException: Directory /usr/local/hadoop/dfs/name is in an inconsistent state: storage directory does not exist or is not accessible....

2020-01-16 20:40:58 259 1

原创 hadoop datanode 启动不起来

先执行stop-all.sh暂停所有服务将所有Salve节点上的tmp(即 hdfs-site.xml 中指定的 dfs.data.dir 文件夹，DataNode存放数据块的位置)、 logs 文件夹删除，然后重新建立tmp , logs 文件夹将所有Salve节点上的/usr/hadoop/conf下的core-site.xml删除，将master节点的core-site.xml文件...

2020-01-15 21:46:28 129

原创 maven scala

之前有建过maven scala 项目，但还是有遇到几个问题。1.Could not find artifact org.scala-tools:maven-scala-plugin:pom: in scala-tools.org (http://scala-tools.org/repo-releases)，plugins标红解决方法：file-settings-plugins,搜索scala...

2020-01-12 18:36:41 413

原创 hive,hbase,kudu的区别

1.hive和hbase都是基于hdfs，hbase实时计算比较好，hive稳定性比较高2.kudu是基于hbase改进的，不同的是kudu是基于linux不是hdfs，kudu对批量操作数据的支持性比较高，而hbase的实时性比较高！...

2020-01-11 00:21:37 5140 2

原创 flume安装与部署

https://cloud.tencent.com/developer/article/1474200

2020-01-08 15:43:20 87

原创 kudu崩溃表需重建

kudu是基于hbase改造的，批量插入的性能好！但因为是新的东西坑多！最近就遇到kudu崩溃表需重建的问题，原因在于只启动了一个master，这种一个节点的如果磁盘什么的坏了,数据就丢了.重新起一个master,下面的tablet的uuid也不一样,数据也恢复不了。至少得3个节点！...

2020-01-05 18:22:51 390

原创 hadoop常用命令

1.查看hadoop详情hadoop dfsadmin -report

2019-10-22 09:37:45 102

原创启动hive之前需要初始化hive元数据

hive命令报错：Exception in thread “main” java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Hive metastor...

2019-10-21 23:08:51 1413

原创 spark常用命令

1.关闭pyspark （CTRL+D）

2019-10-14 09:14:36 181

原创 hadoop主节点jps出现DataNode

可能是配置从节点的时候添加了主节点ip

2019-10-12 16:16:13 1283 2

原创 java.io.IOException: Cannot create directory /usr/local/hadoop/hdfs/name/current

用root账号删除current文件夹

2019-10-12 16:13:09 1246

空空如也

空空如也