自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 问答 (1)
  • 收藏
  • 关注

原创 spark面试题汇总(二)

spark有哪两类算子,有哪些特点? spark开发过程中应该尽量避免哪些算子? spark如何从kafka中获取数据? rdd有哪几种创建方式? spark并行度怎么设置比较合适? spark如何处理不能被序列化的对象? collect功能是什么?其底层是怎么实现的? 为什么spark 程序没获得足够资源就开始执行,这会导致什么问题? map和flatmap的区别 driver的功能是什么 spark技术栈都有哪些组件?各自的特点都有哪些? spark中 worker的主要工作是什么? MR和spark都

2021-08-18 21:56:18 57

原创 spark面试题汇总(一)

hadoop和spark的shuffle异同点 从high-level角度来看,两者并无太大区别。 都是在map阶段通过partition将数据送到reduce进行计算 从low-level角度来看,hadoop是基于sort-based,即在combine/reduce之前会进行 必须进行数据排序操作,这样做的好处是能处理大规模数据,因为输入的数据可以通过外排得到, 而spark则是hash-based,即通过hashmap对 shuffle来的数据进行聚合,而不会主动进行排序,如需排序则需要手动配置参

2021-08-15 22:09:25 83

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除