自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 【大数据面试常问问题】----Kafka中Zookeeper的作用

broker状态zookeeper 记录了所有 broker 的存活状态,broker 会向 zookeeper 发送心跳请求来上报自己的状态。zookeeper 维护了一个正在运行并且属于集群的 broker 列表。控制器选举kafka 集群中有多个 broker,其中有一个会被选举为控制器。控制器负责管理整个集群所有分区和副本的状态,例如某个分区的 leader 故障了,控制器会...

2020-02-08 09:15:47 422

原创 【大数据面试常问问题】----请你说说对Hive桶表的理解

概念桶表就是对数据进行hash取值,然后放在不同的文件中存储。桶表加载数据,对字段进行hash取值,结果与桶的数量取模,取模的结果决定这些数据放在哪个桶中。物理上来讲,桶表就是表目录下的一个文件,桶表的数量和reduce任务数量是相等的。作用抽样调查每篇一言: 知而不行,谓之不诚。 行而不成,谓之不能。...

2020-01-21 10:11:47 440

原创 【大数据面试常问问题】----Hive中两张表关联,使用MapReduce怎么实现

情况一如果其中一张表为小表,可以直接在map端join的方式进行聚合情况二如果两张表都是大表,可以采用联合key的方式进行聚合。联合key的第一个部分join on的部分为公共字段,第二部分添加一个flag,就是一个标记,用来区分两张表,0代表着表A,1代表着表B。用来让Reduce端区分两张表的信息。在Mapper进行表的处理,join on公共字段相同的数据划分到同一个分区中,进而传输...

2020-01-21 09:34:20 1685 1

原创 【大数据面试常问问题】----order by | sort by | distribute by | cluster by 代表什么意思

order by对数据进行全局排序,只有一个reducer。多个reducer不能保证全局有序sort by对输入到reduce的数据做排序distribute by数据按照key分配到不同的reduce中cluster by相当于 distribute by 结合 sort by,即按照key分配reduce又排序了。每篇一言: 君子先行其言,而后从之。...

2020-01-12 14:39:16 318

原创 【大数据面试常问问题】----Hive表关联,数据倾斜问题解决?

数据倾斜原因:Map端输出数据按照key hash分配到reduce中,数据分配不均匀。还可能是因为:建表不规范、业务本身的问题、Hql语句的问题都可能导致数据倾斜。解决方式:1.负载均衡设置两个参数set hive.map.aggr=true Map端输出做一个局部聚合,相当于combinerset hive.groupby.skewindata=true 数据倾斜时,做负载均衡...

2020-01-12 10:41:12 630

原创 【大数据面试常问问题】----Zookeeper的选举机制【非深入】

Zookeeper的选取机制目前有5台服务器,每台服务器均没有数据,它们的编号分别是1,2,3,4,5,按编号依次启动,它们的选择举过程如下:服务器1启动,给自己投票,然后发投票信息,由于其它机器还没有启动所以它收不到反馈信息,服务器1的状态一直属于Looking(选举状态)。服务器2启动,给自己投票,同时与之前启动的服务器1交换结果,由于服务器2的编号大所以服务器2胜出,但此时投票数没有...

2020-01-12 08:53:29 174

原创 【大数据面试常问问题】----MapReduce优化

MapReduce优化MR优化从5个角度优化:输入端->MapShuffle->ReduceShuffle 网络IO 1)数据输入小文件处理:(1)合并小文件:对小文件进行归档(Har)、自定义Inputformat将小文件存储成SequenceFile文件。(2)采用ConbinFileInputFormat来作为输入,解决输入端大量小文件场景。(3)对于大量小文...

2020-01-11 11:40:16 275

原创 【大数据面试常问问题】----Hadoop的调度器

FIFO调度器单队列,任务先进先出,并行度为1容量调度器多队列,每个队列中的调度策略为FIFO调度策略,并行度为队列的个数每个队列中的资源,可在配置中设置公平调度器多队列,并行度大于队列的个数。每个队列中的资源是按照缺额大小进行分配的,缺额越大的任务越先获取到资源,直到资源分配完为止。缺额:任务理想获取到的资源和实际获取到资源的差距。-------- 简单来说就是,理想...

2020-01-11 09:35:02 142

原创 【大数据面试常问问题】----Hadoop缓存机制

分布式缓存面试可说:分布式缓存最重要的一个应用就是join操作,比如说一个表很大,另一个表很小。我们就可以对小表就行广播处理,即每个节点都存放一个小表,然后进行Map端的连接。经过试验,Map端的join效率远远高于Reduce端的join,广博处理就运用到了分布式缓存的技术。每篇一言: 但问耕耘,莫问收获...

2020-01-11 09:07:15 353

原创 【大数据面试常问问题】----MR运行流程【非深入】

MR流程三步骤Map端用户提交的任务文件,在hdfs做了一个预切分,切分是交由FileInputFormat类按照默认block块大小128M进行切分,切分非物理切分,而是逻辑切分。形成了对应的split文件。----->例如:a.txt(200M),按照128M切分就会形成两个split。注意:split的个数决定了MapTask的数量接着,类TextInputFormat中的成员...

2020-01-11 08:43:36 459

原创 【大数据面试常问问题】----HANameNode

HANameNode是如何工作的? 通过ZKFCZKFC的职责ZKFC定期向它所监控的NameNode发送健康探测命令。如果NameNode宕机没有发送心跳,ZKFC就认为它不健康,就会在ZK中给其标记上一个不健康的标记。ZKFC同时也会给健康的NameNode创建一个会话,假设这个NameNode同时还是Active状态,就会给其在ZK中创建一个znode锁,如果这个NameNode...

2020-01-10 11:15:57 521

原创 【大数据面试常问问题】----NameNode以及SecondryNamenode

NameNode功能: NameNode负责整个文件系统的元数据,以及相应文件block块对应的位置SecondryNamenode功能: 负责定期合并编辑日志和镜像文件。两者联系SecondryNamenode保存了一份和NameNode一样的编辑日志和镜像文件。NameNode出现故障(比如数据没做备份),可从SecondryNamenode中恢复数据。...

2020-01-10 10:09:03 151

原创 【大数据面试常问问题】----HDFS读写流程

HDFS读写流程HDFS读流程:首先,客户端向namenode请求上传文件。namenode检测相应的文件是否存在,若不存在namenode则向client响应可以上传。client按照128M切分文件,切分完文件之后,client请求namenode第一个block上传的位置,namenode返回block应上传的相应的block位置,clent先向第一个dn1上传第一个block,dn1...

2020-01-10 09:55:16 362 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除