自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HANG.NIAN

我在, 我会一直在 ,在努力... ...

  • 博客(246)
  • 资源 (2)
  • 收藏
  • 关注

原创 [2024年]-flink面试真题(四)

[2024年]-flink面试真题(二)[2024年]-flink面试真题(二)[2024年]-flink面试真题(三)

2024-03-11 12:32:31 715

原创 [2023年]-hadoop面试真题(三)

[2023年]-hadoop面试真题(一)[2023年]-hadoop面试真题(二)

2024-03-11 12:28:18 734

原创 [100个Linux常用指令]-吐血推荐,收藏关注

[100个Linux常用指令]-吐血推荐,收藏关注

2024-03-10 21:57:17 766

原创 [2023年]-hadoop面试真题(二)

[2023年]-hadoop面试真题(二)

2024-03-10 21:33:29 575

原创 [2023年]-hadoop面试真题(一)

更多面试真题请连接更多视频学习资料分享

2024-03-10 21:23:46 737

原创 [hive面试真题]-基础理论篇

hive出现code 1 2 3 什么原因 ,怎么处理。hive中如果出现数据倾斜 ,怎么发现 ,怎么处理。工作中hive常见的文件格式 .压缩格式。hive中如何对数据去重 ,有什么区别。发现hive分区中的数据不对怎么处理。工作中hive分区表的应用示例。hive如何优化 ,怎么优化。hive中关联方式有哪几种。hive中分区表,分桶表。工作时常用的hive函数。谈谈对窗口函数的理解。

2024-03-09 13:16:36 639

原创 [2024年]-flink面试真题(三)

1 (北京)日活是3亿条数据,需要根据1d,2d,7d,天数不固定按照天数使用Flink快速出结果,要怎么做?3 (北京)使用KafkaSource和KafkaSink的精准一次性实现原理。6 (上海 )flink如何保证处理数据过程中的正确性?2 (北京)针对flink-cdc提问,如果丢数据怎么办?5 (上海) flnk的任务失败重启策略有哪些?4 (上海) flink中状态如何管理?

2024-03-09 12:00:25 456

原创 [2024年]-flink面试真题(二)

4(北京)Flink cdc怎么实现同步增量数据和全量数据,底层区别是什么?2 (北京)flink on yarn的模式有哪几种 , 有什么特点?10 (上海)flink和spark streaming的区别?11(上海)Flink中Barrier工作原理,对齐机制和特点?8 (上海)flink是如何管理kakfa的offset。1(北京)什么是flink的两阶段提交?7 (北京)Flink的内存怎么管理?9 (上海)说一下flink的序列化机制。5 (北京)Flink反压机制?

2024-03-09 11:16:54 392

原创 [2024年]-flink面试真题(一)

(北京)flink 端到端(end-to-end)状态一致性如何保证?(北京)taskManager和slot、task的关系?(北京)flink时间语义和Watermark?(北京)谈谈flink双流join,和应用实例?(北京) flink任务出现很高的延迟如何解决?提供微信答疑服务: 17710299606。(北京)flink 的运行架构和执行流程?(北京)flink状态太大怎么解决?(北京)flink迟到数据如何处理的?(北京)什么是flink状态后端?(北京)什么是flink状态?

2024-03-08 13:12:04 521

原创 IDEA快捷键大全,再也不会忘记了 ,建议收藏关注~~

熟练使用 IDEA 快捷键,可以显著提升编码效率。本文汇总了 Windows 系统下 IDEA 的快捷键,非常多,但是没有必有都要记住,仅需要记住下文标注 ✔️ 的必会快捷即可,至于那些使用频率不是很高的快捷键,手动点击菜单即可。注意:本手册列举的都是 IDEA 默认的快捷键,不建议改成其他编辑器的快捷键,如 Eclipse、Visual Code 等。

2024-03-08 12:45:11 1201

原创 分享一个开发者武库网站

各种资源信息:

2024-03-08 12:18:32 367

原创 比较好用的idea插件分享

不需要再使用 Postman 等外置接口测试工具了,IDEA 内置了 HTTP Client,通过编写请求脚本来进行调用,非常灵活。在顶部菜单的 Tools > HTTP Client 中打开:代码提示补全插件。使用 AI 去自动提示和补全代码,比 IDEA 自带的代码补全更加智能化。注册后自动代码不补全功能!代码浏览插件。通过颜色区分括号嵌套层级,便于阅读,能够更快地对错误代码进行定位和调整。但是建议不要在代码中出现大量的嵌套哦!

2024-03-07 13:01:41 543

原创 分享一个翻译插件:给你不受语言限制、无需繁琐操作的冲浪体验----沉浸式翻译

作为一款基本免费的翻译工具,沉浸式翻译提供了非常丰富的功能,包括了网页翻译、PDF 翻译、EPUB 翻译、字幕翻译以及相应的导出功能,同时通过悬浮球、键盘快捷键、鼠标悬浮等方式来提高翻译的效率,让优秀的功能不被麻烦的调用方式拖累。同时,如果你还想获得更多强大的服务,既可以直接购买沉浸式翻译自己的 Pro 会员,也可以自由购买 DeepL、OpenAI 等第三方的服务,自由度很高。

2024-03-07 12:23:39 1043

原创 实用网站(在线思维导图),老司机必备,收藏关注~~

(中文站)(英文站)思维导图。

2024-03-06 11:08:30 701

原创 强烈推荐学习网站,建议收藏关注~~

Hello Algo - https://www.hello-algo.com/ 58小林编程 - https://xiaolincoding.com/ 46JavaGuide - https://javaguide.cn/ 22虫洞栈 - https://bugstack.cn/ 27B站大数据精品视频 -白眼黑刺猬的个人空间-白眼黑刺猬个人主页-哔哩哔哩视频DevOps指南 - https://tsejx.github.io/devops-guidebook/ 24被删的前端游乐场 -http://ww

2024-03-06 10:44:51 439

原创 精品网站分享,建议关注收藏!~

海量免费高质量Mockup模板|PSD样机|展示模型,包括办公用用品样机、VI样机、Logo样机、化妆品样机、视频饮料样机、药品保健样机、各类盒子、包装盒、包装箱、牛皮纸箱、电子产品、服装样机等等,源文件下载后可以编辑修改文字与贴图图片。西田样机提供免费样机素材/Mockup模板/PSD贴图素材下载,包括办公用用品样机、VI样机、Logo样机、化妆品样机、视频饮料样机、药品保健样机、各类盒子、包装盒、包装箱、牛皮纸箱、电子产品样机、办公样机。一个简约风格的可自定义主题、可切换字体的打字记录和键盘测试网站。

2024-03-05 13:03:38 368

原创 程序员必看!编程学习必备的100多个学习网站,建议收藏!

搞学习,找书籍,冷知识 / 黑科技,写代码,资源搜索,小工具.导航页(工具集),看视频,学设计,搞文档,找图片。今天推荐一些学习资源给大家,当然大家可以留言评论自己发现的优秀资源地址。IMGBOT(在线图片处理):www.imgbot.ai。

2024-03-05 12:44:04 860

原创 殿堂级Flink源码极精课程预售

flink源码

2024-03-02 12:59:36 498

原创 Flink系列文档-(YY11)-watermark工作机制

观察源码/****/@Public/****/}}}}

2022-12-02 16:32:38 917

原创 Docker安装RocketMQ-YASG

1. rocketmq的部署架构。1. rocketmq的部署架构。RocketMQ 网络部署特点。2. 安装NameServer。3. 安装broker。

2022-11-20 23:31:10 361 1

原创 Flink系列文档-(YY10)-Flink时间语义的watermark

由宇宙客观规律以恒定速度,不可停滞地推进 , 而事件时间,并不能像处理时间那样,(事件可能出现延迟,乱序);由于在事件时间语义的世界观中,时间是由流入系统的数据(事件)而推进的;显然,在事件时间语义的世界观中,时间的推进,并不是一件显而易见的事情;下游分区接收上游多个分区的数据,数据时间错落有致,那以谁为准?数据时间存在乱序的可能性,但时光不能倒流啊!1 事件时间推进的困难。1 事件时间推进的困难。

2022-11-13 22:37:06 571

原创 Flink系列文档-(YY09)-Flink时间语义

Flink系列文档-(YY09)-Flink时间语义

2022-11-13 22:05:54 726

原创 Flink系列文档-(YY08)-Flink核心概念

也可把多个算子的逻辑chain在一起后封装在一个独立的task中(可以有多个运行时实例:subTask);一个算子的逻辑,可以封装在一个独立的task中(可以有多个运行时实例:subTask);同一个task的不同运行实例,必须放在不同的task slot上运行;startNewChain 对算子开启新链(即禁用算子前链合并)同一个task slot,可以运行多个不同task的各一个并行实例;上下游算子属于相同的slotSharingGroup(槽位共享组);3个条件都满足,才能合并为一个task;

2022-11-11 22:28:56 1514

原创 Flink系列文档-(YY07)-Flink编程API-process function

Flink系列文档-(YY07)-Flink编程API-process function

2022-11-11 22:09:20 555

原创 Flink系列文档-(YY06)-Flink编程API-Sink

Flink系列文档-(YY06)-Flink编程API-Sink

2022-11-08 23:19:01 1090

原创 Flink系列文档-(YY05)-Flink编程API-多流算子

Flink系列文档-(YY05)-Flink编程API-多流算子

2022-11-08 15:52:35 1032

原创 Flink系列文档-(YY04)-Flink编程基础API-Transformation算子

Flink系列文档-(YY04)-Flink编程基础API-Transformation算子

2022-11-07 23:30:18 768

原创 Flink系列文档-(YY03)-Flink编程基础API-Source

Flink系列文档-(YY03)-Flink编程基础API

2022-11-07 22:01:33 1076

原创 Flink系列文档-(YY02)-Flink编程基础-入门示例

Flink系列文档-(YY02)-Flink编程基础-入门示例

2022-11-07 21:20:13 972

原创 Flink系列文档-(YY01)-初识Flink

Flink系列文档-(YY01)-初始Flink

2022-11-07 13:51:41 883

原创 spark处理数据落地Hudi同步HIVE(01)-分区详解

有的时候我们期望数据是分区的,关于hive的分区详细介绍请连接:hive详细笔记(四)-Hive内部表,外部表,分区表,分桶表详解(附带讲解视频)_JAVA_JAVA-CSDN博客1 落地Hudi同步HIVE表-没有分区package com.doitedu.demoimport org.apache.hudi.DataSourceWriteOptionsimport org.apache.spark.SparkConfimport org.apache.spark.sql.types..

2021-10-20 13:56:02 1799

原创 spark处理数据落地Hudi同步HIVE(01)

注意本案是以HDFS离线数据为例1 spark操作hivesparksql读取hive中的数据不需要hive参与 , 读取HDFS中的数据和mysql中的元数据信息即可Sparksql本身就内置了hive功能加载hive的数据,本质上是不需要hive参与的,因为hive的表数据就在hdfs中,hive的表定义信息在mysql中不管数据还是定义,sparksql都可以直接去获取!步骤:要在工程中添加spark-hive的依赖jar 要在工程中添加mysql连接驱动依赖jar..

2021-10-20 13:47:47 2708 2

原创 Windows10家庭版VMWare15安装虚拟机启动蓝屏问题

今天在自己的电脑上了装虚拟机,操作系统是windows10家庭版,vmware版本是15.5 ,安装操作系统centos7. 安装软件和创建虚拟机的方式很简单,也没啥问题,就是每次已启动就蓝屏,重启。然后就在网上找解决方案。第一步是打开了win10家庭版的Hyper-V,并禁用。参考地址: 运行VMware15.5.5虚拟机导致win10蓝屏死机 (china-tom.com)主要就是打开了windows功能中的虚拟机平台,关闭了hyper-v,如果没有这个选项,文章中说明了如何执行脚本。

2021-10-08 12:22:16 3891 1

原创 什么是物化视图

ClickHouse拥有普通和物化两种视图,其中物化视图拥有独立的存储,而普通视图只是一层简单的查询代理普通视图不会存储任何数据,它只是一层单纯的SELECT查询映射,起着简化查询、明晰语义的作用,对查询性能不会有任何增强。物化视图物化视图支持表引擎,数据保存形式由它的表引擎决定,创建物化视图的完整语法如下所示create materialized view mv_log engine=Log populate as select * from log ;物化视图创建好之后,如果源表被写

2021-09-28 14:20:55 5721 1

原创 mysql获取字段名,获取注释

mysql安装成功后可以看到已经存在mysql、information_schema和test这个几个数据库。information_schema库中有一个名为COLUMNS的表,这个表中记录了数据库中所有表的字段信息。知道这个表后,获取任意表的字段就只需要一条select语句即可。例如:select COLUMN_NAME from information_schema.COLUMNS where table_name = 'your_table_name'; 上述的做法有一点问题,如

2021-08-20 13:36:12 1257

原创 Flink双流connect的用法

业务需求:根据id将两个流中的数据匹配在一起组合成新的流数据,默认两个流的最大延迟时间为60s超过60s还未匹配成功,意味着当前只有一个流来临,则任务流信息异常,需要将数据侧流输出思路:先将两个流keyBy(),再connect,然后调用CoProcessFunction函数,在里面处理流1和流2,再设置一个60s的定时器,如果60s内另一个流没来,则把达到的流侧输出// 流1 要先按照id分组,再设置水印和事件时间,因为后面注册的定时器是基于事件时间的DataStreamSource&lt.

2021-07-27 22:28:28 2247 1

原创 spark封神之路(16)-序列化

1) 闭包检查 从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。那么在 scala 的函数式编程中,就会导致算子内经常会用到算子外的数据,这样就形成了闭包的效果,如果使用的算子外的数据无法序列化,就意味着无法传值给 Executor端执行,就会发生错误,所以需要在执行任务计算前,检测闭包内的对象是否可以进行序列化,这个操作我们称之为闭包检测。Scala2.12 版本后闭包编译方式发生了改变 def map[U: ClassTag](f: T

2021-06-27 12:43:56 272

原创 spark封神之路(15)-广播变量

简介广播变量可以让我们在每台计算机上保留一个只读变量,而不是为每个任务复制一份副本。例如,可以使用他们以高效的方式为每个计算节点提供大型输入数据集的副本。Spark也尽量使用有效的广播算法来分发广播变量,以降低通信成本。 另外,Spark action操作会被划分成一系列的stage来执行,这些stage根据是否产生shuffle操作来进行划分的。Spark会自动广播每个stage任务需要的通用数据。这些被广播的数据以序列化的形式缓存起来,然后在任务运行前进行反序列化。也就是说,在以下两种情况下显示的创

2021-06-27 12:41:50 1310 1

原创 spark封神之路(14)-累加器

基本使用累加器用来把Executor端变量信息聚合到Driver端。在 Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回 Driver端进行merge。观察一个问题: 原因是数据在executor端执行完毕以后并没有将acc结果数据返回def main(args: Array[String]): Unit = { val sc: SparkContext = SparkUtil.getSc va

2021-06-27 12:36:27 272 1

原创 spark封神之路(13)-RDD分区详解

1 简介简介理解RDD是spark中封装的用来处理数据的一种抽象概念,其主要包含处理逻辑和要处理的数据! ​ 无论是不读取文件获取的RDD还是从集合转换而来的RDD最终的目的都是为了处理对应的数据 ,数据量海量的话 , 我们应该很容易的想到让数据并行化分布式运算!牵扯到分布式那必然存在数据任务划分的问题!那么RDD在创建的时候就对数据进行了有效的分区!当然我们也可以合理的改变RDD的分区来提高运算效率!一个partitioner,即RDD的分片函数。当前Spark中实现了两种类型的分片函数.

2021-06-23 08:54:48 1211 1

hudi-master.tar.gz

最新源码 1.10.0

2021-11-10

spark-文档资料包.zip

spark-文档资料包.zip

2021-07-30

spark-文档资料包.zip spark-文档资料包.zip

spark-文档资料包.zip spark-文档资料包.zip

2021-07-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除