自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Spark Shuffle 原理

优点:快-不需要排序,也不需要维持hash表不需要额外空间用作排序不需要额外IO-数据写入磁盘只需一次,读取也只需一次缺点:当partitions大时,输出大量的文件(cores * R),性能开始降低大量的文件写入,使文件系统开始变为随机写,性能比顺序写要降低100倍缓存空间占用比较大。

2023-05-06 23:01:23 101

原创 Spark RDD的基本概念

RDD的全称为Resilient Distributed Dataset,是⼀个弹性、可复原的分布式数据集,是Spark中最基本的抽象,是⼀个不可变的、有多个分区的、可以并⾏计算的集合。RDD中并不装真正要计算的数据,⽽装的是描述信息,描述以后从哪⾥读取数据,调⽤了⽤什么⽅法,传⼊了什么函数,以及依赖关系等。所以,RDD本质更像是Scala中的迭代器。

2023-04-18 16:25:54 600 1

原创 Flink基于Zookeeper、Curator的高可用原理1

本篇是基于Flink1.16对老版本(Flink1.12以下)高可用原理、以Standalone模式下的WebMonitorEndpoint为例的一篇更新本篇聚焦于Zookeeper的高可用原理。

2023-04-06 22:00:25 310 2

原创 Flink基于Zookeeper、Curator的高可用原理2

本篇原理是对老板的Flink高可用原理的一片更新。

2023-04-04 16:48:52 497 2

原创 Analyzing Airbnb data for Boston and Seattle

Analyzing Airbnb data for Boston and SeattleAnalyzing Airbnb data for Boston and Seattle1. Business understanding2. Data understanding2.1 Load the data2.2 Preview the data3. Data preperation3.1 Merge ...

2019-10-16 03:18:29 675

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除