c美食家-CSDN博客

原创【大数据面试常问问题】----Kafka中Zookeeper的作用

broker状态zookeeper 记录了所有 broker 的存活状态，broker 会向 zookeeper 发送心跳请求来上报自己的状态。zookeeper 维护了一个正在运行并且属于集群的 broker 列表。控制器选举kafka 集群中有多个 broker，其中有一个会被选举为控制器。控制器负责管理整个集群所有分区和副本的状态，例如某个分区的 leader 故障了，控制器会...

2020-02-08 09:15:47 422

原创【大数据面试常问问题】----请你说说对Hive桶表的理解

概念桶表就是对数据进行hash取值，然后放在不同的文件中存储。桶表加载数据，对字段进行hash取值，结果与桶的数量取模，取模的结果决定这些数据放在哪个桶中。物理上来讲，桶表就是表目录下的一个文件，桶表的数量和reduce任务数量是相等的。作用抽样调查每篇一言: 知而不行，谓之不诚。行而不成，谓之不能。...

2020-01-21 10:11:47 440

原创【大数据面试常问问题】----Hive中两张表关联，使用MapReduce怎么实现

情况一如果其中一张表为小表，可以直接在map端join的方式进行聚合情况二如果两张表都是大表，可以采用联合key的方式进行聚合。联合key的第一个部分join on的部分为公共字段，第二部分添加一个flag，就是一个标记，用来区分两张表，0代表着表A，1代表着表B。用来让Reduce端区分两张表的信息。在Mapper进行表的处理，join on公共字段相同的数据划分到同一个分区中，进而传输...

2020-01-21 09:34:20 1685 1

原创【大数据面试常问问题】----order by | sort by | distribute by | cluster by 代表什么意思

order by对数据进行全局排序，只有一个reducer。多个reducer不能保证全局有序sort by对输入到reduce的数据做排序distribute by数据按照key分配到不同的reduce中cluster by相当于 distribute by 结合 sort by，即按照key分配reduce又排序了。每篇一言: 君子先行其言，而后从之。...

2020-01-12 14:39:16 318

原创【大数据面试常问问题】----Hive表关联，数据倾斜问题解决?

数据倾斜原因:Map端输出数据按照key hash分配到reduce中，数据分配不均匀。还可能是因为:建表不规范、业务本身的问题、Hql语句的问题都可能导致数据倾斜。解决方式:1.负载均衡设置两个参数set hive.map.aggr=true Map端输出做一个局部聚合，相当于combinerset hive.groupby.skewindata=true 数据倾斜时，做负载均衡...

2020-01-12 10:41:12 630

原创【大数据面试常问问题】----Zookeeper的选举机制【非深入】

Zookeeper的选取机制目前有5台服务器，每台服务器均没有数据，它们的编号分别是1,2,3,4,5,按编号依次启动，它们的选择举过程如下：服务器1启动，给自己投票，然后发投票信息，由于其它机器还没有启动所以它收不到反馈信息，服务器1的状态一直属于Looking(选举状态)。服务器2启动，给自己投票，同时与之前启动的服务器1交换结果，由于服务器2的编号大所以服务器2胜出，但此时投票数没有...

2020-01-12 08:53:29 174

原创【大数据面试常问问题】----MapReduce优化

MapReduce优化MR优化从5个角度优化:输入端->MapShuffle->ReduceShuffle 网络IO 1）数据输入小文件处理：（1）合并小文件：对小文件进行归档（Har）、自定义Inputformat将小文件存储成SequenceFile文件。（2）采用ConbinFileInputFormat来作为输入，解决输入端大量小文件场景。（3）对于大量小文...

2020-01-11 11:40:16 275

原创【大数据面试常问问题】----Hadoop的调度器

FIFO调度器单队列，任务先进先出，并行度为1容量调度器多队列，每个队列中的调度策略为FIFO调度策略，并行度为队列的个数每个队列中的资源，可在配置中设置公平调度器多队列，并行度大于队列的个数。每个队列中的资源是按照缺额大小进行分配的，缺额越大的任务越先获取到资源，直到资源分配完为止。缺额：任务理想获取到的资源和实际获取到资源的差距。-------- 简单来说就是，理想...

2020-01-11 09:35:02 142

原创【大数据面试常问问题】----Hadoop缓存机制

分布式缓存面试可说:分布式缓存最重要的一个应用就是join操作，比如说一个表很大，另一个表很小。我们就可以对小表就行广播处理，即每个节点都存放一个小表，然后进行Map端的连接。经过试验，Map端的join效率远远高于Reduce端的join，广博处理就运用到了分布式缓存的技术。每篇一言: 但问耕耘，莫问收获...

2020-01-11 09:07:15 353

原创【大数据面试常问问题】----MR运行流程【非深入】

MR流程三步骤Map端用户提交的任务文件，在hdfs做了一个预切分，切分是交由FileInputFormat类按照默认block块大小128M进行切分，切分非物理切分，而是逻辑切分。形成了对应的split文件。----->例如:a.txt(200M),按照128M切分就会形成两个split。注意：split的个数决定了MapTask的数量接着，类TextInputFormat中的成员...

2020-01-11 08:43:36 459

原创【大数据面试常问问题】----HANameNode

HANameNode是如何工作的? 通过ZKFCZKFC的职责ZKFC定期向它所监控的NameNode发送健康探测命令。如果NameNode宕机没有发送心跳，ZKFC就认为它不健康，就会在ZK中给其标记上一个不健康的标记。ZKFC同时也会给健康的NameNode创建一个会话，假设这个NameNode同时还是Active状态，就会给其在ZK中创建一个znode锁，如果这个NameNode...

2020-01-10 11:15:57 521

原创【大数据面试常问问题】----NameNode以及SecondryNamenode

NameNode功能: NameNode负责整个文件系统的元数据，以及相应文件block块对应的位置SecondryNamenode功能：负责定期合并编辑日志和镜像文件。两者联系SecondryNamenode保存了一份和NameNode一样的编辑日志和镜像文件。NameNode出现故障(比如数据没做备份)，可从SecondryNamenode中恢复数据。...

2020-01-10 10:09:03 151

HDFS读写流程HDFS读流程：首先，客户端向namenode请求上传文件。namenode检测相应的文件是否存在，若不存在namenode则向client响应可以上传。client按照128M切分文件，切分完文件之后，client请求namenode第一个block上传的位置，namenode返回block应上传的相应的block位置，clent先向第一个dn1上传第一个block，dn1...

2020-01-10 09:55:16 362 3

c美食家的博客