自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 SparkCore

SparkCore总结1. RDD1.1定义:··········1.1.1数据集:存储数据的计算逻辑··········1.1.2分布式:数据的来源&计算都是分布式的··········1.1.3弹性:································血缘(依赖关系):Spark可以通过特殊的处理方案简化依赖关系························...

2019-11-20 22:53:19 93

原创 RDD概述

什么是RDD?RDD叫做弹性分布式数据集,是Spark中基本的数据抽象,代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面元素可并行计算的集合。一、我相信大家最疑惑的就是“什么是弹性分布式数据集”弹性就是:存储的弹性:内存与磁盘的自动切换容错的弹性:数据丢失可以自动恢复计算的弹性:计算出错重试机制分片的弹性:可根据需要重新分片。二、什么是不可变:简单来说就是创建一个RDD如...

2019-11-19 21:28:01 556

原创 HIVE

HIVEHIVE 简介HIVE是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MaoReduce任务进行运行。其优点是学习成本低,可以通过类sql语句快速实现简单的MapReduce统计,不必开发专门的MaoReduce应用,十分适合数据仓库的统计分析。另外一个是windows注册表文件。1.HIVE处理的数...

2019-11-05 20:12:31 1366 1

原创 MapReduce的工作原理

MapReduce简介MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。MapReduce的执行过程MapReduce的执行原理MapReduce的执行过程(想学就手打)首先是Map阶段首先要保证你的HDFS中有文件并...

2019-10-31 22:51:57 137

原创 什么是TFS

tfs简单讲解tfs的架构设计:TFS(Taobao File System)是一个高可用、高性能、高可扩展的分布式文件系统,基于普通的Linux服务器构建,主要提供海量非结构化数据存储服务。TFS集群由名字服务器(namserver)和数据服务器(dataserver)组成,TFS以数据块(block)为单位存储和组织数据,block大小通常为64M(可配置),TFS会将多个小文件存储在同一...

2019-10-26 23:10:31 11710

原创 安装Hadoop

Hadoop伪分布式集群搭建基于大电脑配置问题,在这里给他家分享一下伪分布式集群搭建的配置方式本文内容仅仅只是为了配置比较低的电脑来完成分布式集群搭建的学习前提:1. 虚拟机网络配置2. 修改主机名为:hadoop1003. 还有配置主机名和IP的映射关系(便于使用主机名访问虚拟机)4.关闭防火墙 service iptables stop;chkconfig iptables off...

2019-10-25 22:39:01 101

原创 HDSF的读写流程

HDSF的读写流程HDFS写数据的流程如图:1.客户端通过Distributed模块向Namenode请求上传文件,Namenode呢?他回去检查这个文件是否存在,还有他的父目录是否存在。如果文件存在,那就到了第二步2.Namenode返回响应说:可已上传文件。3.客户端的Distributed模块收到信号后将要传的文件发给NameNode让Namenode来分配他到底存在哪个节点上...

2019-10-25 21:25:51 487 2

原创 从Hadoop框架讨论大数据生态

从Hadoop框架讨论大数据生态什么是Hadoop1.Hadoop是由Apache基金会所开发的分布式的系统基础框架集群:多个机器共同完成一件事情分布式:多个机器共同完成一件事情,然后不同机器作用不同,各司其职集群不一定是分布式 ,但是分布式一定是集群2.主要解决,海量数据的存储和海量数据的分析计算问题3.广义上来讲,HADOOP通常指一个更广泛的概念—HADOOP生态圈Had...

2019-10-25 16:44:55 271 1

原创 Linux的入门命令

Linux的入门命令pwd:显示当前所在路径cd:改变路径ls:显示路径下的内容ll:显示详细信息 == ls -lMore+文件名:显示文件的内容<如果文件内容太多按回车键可显示一行,按空格键可显示一页>Clear:清屏cat:+ 文件名: 全部查看和more相似但他是全部显示Tac+文件名:将文件信息倒序显示仔细看可以看出效果他是对称的T...

2019-10-21 21:08:42 123

原创 虚拟机的网络

虚拟机的网络设置实现查看你是否有VMnet8找到VMnet8的相关信息第一步打开虚拟网络编辑器第二步选择VMnet8打开NAT设置第三步设置网关注意的是网关地址是192.168.124.2(根据自己查询的VMnet8的前三组数字,最后一位固定是2)第四步:打开编辑第五步:设置ipv4最后打开终端service network restart...

2019-10-21 19:34:24 110

原创 Linux中vi和vim的常用命令

Linux中的VI/VIM编辑器及常用命令首先创建一个文件名字叫test.txt执行命令vi test.txt 或者vim test.txt都可以可以按 i 或者 a可以进入编辑模式 o是换行编写ESC键可以退出编写模式在普通模式下U:是返回上一步操作YY:是复制光标所在行数数字+YY:表示从光标位置复制几行P:粘贴DD:删除一行数字+DD:删除光标下几行X:剪切光标...

2019-10-21 18:38:38 369

原创 Linux的目录结构

Linux的目录结构打开终端cd /转移到根目录ll命令查看目录信息/bin: 是binary的缩写,这个目录存放系统必备执行命令/boot:这里存放的是启动Linux时使用的一些核心文件,包括一些链接文件及镜像文件,自己的安装别放在里面/dev:Device(设备)的缩写,该目录下存放的Linux的外部设备,linux中访问设备的文件和访问文件的方式是相同的/etc:所有的系统...

2019-10-21 17:20:00 98

原创 在虚拟机上安装Linux

Linux的安装步骤:准备工具VMware14虚拟机CentOS-6.8-x86_64-bin-DVD1镜像文件第一步新建虚拟机我这里选择的是自定义第二步找到你镜像文件下载的路径(尽量不要有中文)第三步名字随便起就可以,密码一定要记住第四步设置你的虚拟机的名字,和安装路径(磁盘的可用空间一定要充足)第五步根据自己的电脑配置进行设置 我这里选择默认第六步这个...

2019-10-21 13:35:51 140

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除