学好每一天技术-CSDN博客

原创 spark面试

一、spark streaming和storm有何区别？一个实时毫秒，一个准实时亚秒，不过storm的吞吐率比较低。二、spark有哪些组件？ Master：管理集群和节点，不参与计算。 Worker：计算节点，进程本身不参与计算，和master汇报。 Driver：运行程序的main方法，创建sparkcontext对象。 Spark context：控制整个application的生命周期...

2020-03-06 13:38:40 99

原创大数据（spark）面试

第7章Spark 7.1 sparksql 和 sparkstreaming哪个比较熟答：都还行，SparkSql 的 DataFrame 或者 DataSet 和 SparkStreaming 的 DStream 都是基于SparkCore 的，最终都会转化为 Sparktask 执行。我们可以交流一下本质的东西 SparkCore，而SparkCore 的核心又是 RDD。 7.2 说一下 ...

2020-03-04 06:31:11 390

原创大数据面试（kafka）

第6章Kafka 6.1 kafka用到了什么答：消息持久化，消息批量发送，消息有效期，负载均衡方面都可以说，同步异步的问题，但是一定要挑自己熟悉的说 6.2 介绍下 kafka 容错性 kafka 不像集群最少需要三台机器，假如有三个 kafka，如果坏了两个，那么剩下的一个就是主 leader，并且依然正常运行，这就是kafka 的容错性 6.3 kafka 数据落地磁盘有哪些好处？答：1...

2020-03-04 06:27:47 277

原创大数据面试（MapReduce）

第5章MapReDuce 5.1 数据倾斜的原因： key 分布不均匀业务数据本身的欠缺性建表设计方法不对有些 SQL 难免会有一下数据倾斜不可避免表现的形式：任务完成进度卡死在99%，或者进度完成度在100%但是查看任务监控，发现还是有少量（1个或几个）reduce 子任务未完成。因为其处理的数据量和其他 reduce 差异过大。单一reduce 的记录数与平均记录数差异过大，通常可能...

2020-03-04 06:26:34 510

原创大数据面试（HDFS）

第4章HDFS 4.1 HDFS 的读写流程细节？HDFS 中的 fsimage 里面存储的是什么信息？副本的存放策略？答：这个大家最好回家准备一个详细的流程图然后根据自己的图讲给面试官看 4.2 HDFS 的机架感知？答：根据副本的存放策略，HDFS 是如何知道多个不同 node 是否在同一个机架上呢 ?在namenode 启动时如果 net.topology.script.file.nam...

2020-03-04 06:24:11 342

原创大数据面试（hadoop）

第3章 Hadoop基础 3.1 hadoop支持三种调度器答：（1）先进先出的调度器：最早的 hadoop 采用的是 FIFO（默认-先进先出的）调度器调度用户提交的作业。作业按照提交的顺序被调度，作业必须等待轮询到自己才能运行。但是考虑到公平在多用户之间分配资源，设置了作业的优先级功能，但是不支持抢占式的。（2）公平调度器：公平调度器的目标是让每一个用户公平的共享集群能力，充分的利用闲...

2020-02-28 10:42:55 474 1

原创大数据面试之（java）02

第2章数据结构 2.1 如果链表的实现方式中 hash 的值有冲突的话，怎么解决？如果解决以后怎么解决再链表的常数次的查询？答案：使用链表来存储重复的 hash 值，如何对链表进行常数次的查找，需要将链表+随机数再hash。 2.2 手写冒泡排序这个建议大家在去面试之前一定要牢牢的记住怎么写，这样才能在面试官面前书写流畅。算法思想：（1）将序列中所有元素两两比较，将最大的放在最后面。（...

2020-02-28 10:42:09 130

原创大数据面试之一（java）

第1章 Java 1.1 ConcurrentHashMap 是怎么实现的？答：ConcurrentHashMap 是concurrent 包中线程安全的哈希表，采用分段锁，可以理解为把一个大的 Map 拆分成 N 个小的 HashTable，根据 key.hashCode() 来决定把 key 放到哪个 HashTable 中。在 ConcurrentHashMap 中，就是把 Map 分成了...

2020-02-28 10:40:48 251

原创 spark学习之旅

文章目录弹性分布式数据集RDD 1.1. 什么是RDD 1.2. RDD的属性 1.3. 通过RDD的转换方式对RDD详细解释 1.4. 如何创建RDD 1.5. Transformation和Action详解 1.6. 常用的算子详细解释(一天搞懂一个算子) 1.7. RDD的依赖关系和Stage划分 1.8 集群运行原理 1.9. 缓存Cache设置和CheckPoint设置 RDD小案例...

2020-02-25 09:52:31 156

m0_45131615的博客