柏拉图学院-CSDN博客

原创 MapReduce原理入门（附源码解析）

序言本篇旨在介绍MapReduce的原理及实现细节，一些核心步骤会附带源码解析。MapReduce是配合HDFS产生的，HDFS负责分布式存储，MapReduce负责分布式计算。虽然已经有很多技术成熟的框架计算速度远超过MapReduce，如Spark，但是作为分布式计算的开山鼻祖，MapReduce的思想足够经典，仍然值得学习。本文面向入门读者，不需要过多的编程基础，不过建议先阅读上一篇：HDFS原理入门。什么是分布式计算？当某文件数据很大（可能有几百TB），分布的存储在各个机器时，如果需要对文件

2020-07-09 20:25:56 840 1

原创 HDFS原理入门

序言本篇旨在通过平白朴实的语言介绍hdfs的工作原理，让读者对于分布式文件存储有一个宏观上的认识。并不涉及具体的安装配置使用等，原因是具体使用的文章已经够多了，而且单单阐述原理也足够写一篇长文了。如有必要，可以另起一篇写使用方法和细节，本篇还是以了解思想，入门为主。HDFS一句话简介hdfs是服务于大数据计算的文件存储管理系统，是一切基于Hadoop大数据计算的基础。为什么需要hdfs来做文件管理呢？因为hdfs在分布式存储之外还更好的支持分布式计算，是Hadoop生态圈的基础。HDFS存储模型

2020-07-01 18:55:01 386

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人