嚯阔落-CSDN博客

原创 Hive详述及调优

概念Hive 是一个构建在 Hadoop 之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类 SQL 查询功能，用于查询的 SQL 语句会被转化为 MapReduce 作业，然后提交到 Hadoop 上运行。Hive处理的数据存储在HDFS，Hive分析数据底层的实现是MapReduce，执行程序运行在Yarn上。注：Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不...

2020-03-13 16:25:10 330

原创大数据—Hadoop—Hadoop调优

Hadoop调优HDFS问题：HDFS小文件弊端：HDFS上每个文件都要在namenode上建立一个索引，这个索引的大小约为150byte，这样当小文件比较多的时候，就会产生很多的索引文件，一方面会大量占用namenode的内存空间，另一方面就是索引文件过大是的索引速度变慢。优化方案：1）Hadoop Archive:是一个高效地将小文件放入HDFS块中的文件存档工具，它能够将多个小文...

2020-02-25 04:00:01 144

原创大数据—Hadoop—Yarn

概念Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。名词解释资源：在 YARN 的环境下，资源特指计算资源，包括 CPU 和内存。计算机的...

2020-02-25 03:04:47 142

原创大数据—Hadoop—MapReduce

概念Mapreduce是一个分布式运算程序的编程框架，用于编写批处理应用程序。是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。MapReduce 作业通过将输入的数据集拆分为独立的块，这些块由 map 以并行的方式处理，框架对 map 的输出进行排序，然后...

2020-02-24 19:00:52 255

原创大数据—Hadoop—HDFS

概念HDFS，全称：Hadoop Distributed File System，分布式文件存储系统，用于存储文件。通过目录树来定位文件；而且，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的文件在物理上是分块（block）存储的，在Hadoop2.X及以上的版本中，默认块的大小为128M（一次任务的最后一个块可以小于等于blocksize的1.1倍），块的...

2020-02-23 05:33:21 482

原创大数据—大数据概述

什么是大数据大数据（BIG DATA），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特征容量（Volume）：数据的大小决定所考虑的数据的价值和潜在的信息；种类（Variety）：数据类型的多样性；速度（Velocity）：指获得数据的速度；可变性（Vari...

2020-02-22 00:48:14 282

MapReduceProject.rar

WordCount案例，内含自定义分区、压缩、MapperJoin等。由于是计数案例，数据文件自己做就好（\t分隔符）。

2020-02-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Hive详述及调优

原创 大数据—Hadoop—Hadoop调优

原创 大数据—Hadoop—Yarn

原创 大数据—Hadoop—MapReduce

原创 大数据—Hadoop—HDFS

原创 大数据—大数据概述