飘来荡去Jersey-CSDN博客

原创 spark面试题汇总（二）

spark有哪两类算子，有哪些特点？ spark开发过程中应该尽量避免哪些算子？ spark如何从kafka中获取数据？ rdd有哪几种创建方式？ spark并行度怎么设置比较合适？ spark如何处理不能被序列化的对象？ collect功能是什么？其底层是怎么实现的？为什么spark 程序没获得足够资源就开始执行，这会导致什么问题？ map和flatmap的区别 driver的功能是什么 spark技术栈都有哪些组件？各自的特点都有哪些？ spark中 worker的主要工作是什么？ MR和spark都

2021-08-18 21:56:18 57

原创 spark面试题汇总（一）

hadoop和spark的shuffle异同点从high-level角度来看，两者并无太大区别。都是在map阶段通过partition将数据送到reduce进行计算从low-level角度来看，hadoop是基于sort-based，即在combine/reduce之前会进行必须进行数据排序操作，这样做的好处是能处理大规模数据，因为输入的数据可以通过外排得到，而spark则是hash-based，即通过hashmap对 shuffle来的数据进行聚合，而不会主动进行排序，如需排序则需要手动配置参

2021-08-15 22:09:25 83

空空如也

在kettle中如何进行条件判断

2020-10-26

TA创建的收藏夹 TA关注的收藏夹

TA关注的人