- 博客(2)
- 收藏
- 关注
原创 MapReduce原理入门(附源码解析)
序言本篇旨在介绍MapReduce的原理及实现细节,一些核心步骤会附带源码解析。MapReduce是配合HDFS产生的,HDFS负责分布式存储,MapReduce负责分布式计算。虽然已经有很多技术成熟的框架计算速度远超过MapReduce,如Spark,但是作为分布式计算的开山鼻祖,MapReduce的思想足够经典,仍然值得学习。本文面向入门读者,不需要过多的编程基础,不过建议先阅读上一篇:HDFS原理入门。什么是分布式计算?当某文件数据很大(可能有几百TB),分布的存储在各个机器时,如果需要对文件
2020-07-09 20:25:56 840 1
原创 HDFS原理入门
序言本篇旨在通过平白朴实的语言介绍hdfs的工作原理,让读者对于分布式文件存储有一个宏观上的认识。并不涉及具体的安装配置使用等,原因是具体使用的文章已经够多了,而且单单阐述原理也足够写一篇长文了。如有必要,可以另起一篇写使用方法和细节,本篇还是以了解思想,入门为主。HDFS一句话简介hdfs是服务于大数据计算的文件存储管理系统,是一切基于Hadoop大数据计算的基础。为什么需要hdfs来做文件管理呢?因为hdfs在分布式存储之外还更好的支持分布式计算,是Hadoop生态圈的基础。HDFS存储模型
2020-07-01 18:55:01 386
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人