自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

鲨鱼胃的博客

身体是最硬的金属

  • 博客(11)
  • 收藏
  • 关注

原创 20190322-Hive高级操作

Join操作 连接数据准备 数据准备 [yao@master data]$ vim studenta.txt [yao@master data]$ vim studentb.txt 数据内容 //studenta.txt 10001 shiny 10002 mark 10003 angel 10005 ella 10009 jack 10014 eva 10018 judy 10020 ce...

2019-03-22 14:16:29 233 1

原创 20190321-分区和分桶

文章目录动态分区表1 包含动态分区的字段的表2 关闭严格分区模式3 创建带有分区的表 动态分区表 1 包含动态分区的字段的表 准备数据 5 男 16 北京 13754554587 2015-03-24 6 女 17 北京 13872374170 2017-02-20 2 女 16 北京 17938844884 2015-05-26 23 男 15 北京 13700000033 2016-07-...

2019-03-21 15:33:12 322

原创 20190321-Hive基本操作

登录Hadoop和Hive [yao@master ~]$ start-all.sh This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh Starting namenodes on [master] master: starting namenode, logging to /home/yao/hadoop-2...

2019-03-21 14:08:09 302

原创 20190315-hadoop集群搭建

文章目录1 基于 VMware workstations 的CentOS7安装1.1 安装虚拟机2 安装CentOS7操作系统2 Linux系统配置2.1 上传安装包2.2 配置时钟同步2.2.1 查看时间2.2.2 时间不一致的解决办法2.3 配置主机名2.3.1 命令设置主机名永久有效2.3.2 配置文件2.3.1 关闭防火墙2.3.2 禁止firewall开机启动2.3.3 查看状态2.5 ...

2019-03-21 09:53:36 301

原创 20190319-利用MapReduce去重和排序

1 分析数据去重 Distinct 原文件内容 2015-3-1a 2015-3-2b 2015-3-1a 2015-5-4d 目标结果 2015-3-1a 2015-3-2b 2015-5-4d MyMapper.java package DataDistinct; import java.io.IOException; import org.apache.hadoop.io.Text; ...

2019-03-20 21:01:25 149

原创 20190319&20-MapReduce编程模型和YARN平台

文章目录MapReduce编程模型wordcount词频统计WordCount编程实例shuffleYARN平台 MapReduce编程模型 MapReduce是一种可用于数据处理的编程模型。该模型比较简单,但用于编写有用的程序并不简单。Hadoop可以运行由各种语言编写的MapReduce程序。例如:Java、Python和C++语言等。最重要的是,MapReduce程序本质上是并行运行的,因此...

2019-03-20 20:46:34 132

原创 20190320-Hive安装文档

文章目录1 上传安装包2 安装MySql2.1 净化MySQL环境2.1.1 检查是否安装过mysql2.1.2 分别卸载2.1.3 删除MySQL相应文件2.2 安装MySQL2.2.1 下载MySQL的yum源2.2.2 查看下载源中包含的rpm包2.2.3 安装rpm包2.2.4 安装MySQL2.2.5 获取临时密码2.2.6 设置密码2.3 配置MySQL2.3.1 创建数据库2.3.2...

2019-03-20 20:13:09 200

原创 20190319-HDFS详解

文章目录核心设计数据块数据复制HDFS副本存放策略Hadoop心跳机制安全模式原理剖析HDFS工作机制NameNode工作机制DataNode工作机制SecondaryNamenode工作机制HDFS的HA运行机制 核心设计 数据块 HDFS上最基本的存储单位,默认大小128M,小于一个块大小的文件不会占据整个块的空间,快非常适合用于数据备份进而提供数据容错能力和可用性。 数据复制 HDFS为了...

2019-03-20 19:49:52 290

原创 20190320-初识Hive

Hive概述 hive是什么? 基于Hadoop、数据仓库、结构化、类SQL、MapReduce任务 架构 基本组成(用户接口) CLI JDBC/ODBC Web UI 元数据存储 1)元数据是什么? 存储在Hive中的数据的描述信息 2)有哪些? 表的名、表的列和分区以及属性(内部表和外部表)、表的数据所在目录 3)存在哪儿? 自带Derby。缺点:不适合多用户操作,并且数据存储目录不...

2019-03-20 19:24:26 312

原创 20190315-初识HDFS

HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。 设计思想 分而...

2019-03-20 19:14:14 208

原创 20190314-Hadoop概述

Apache开源软件基金会开发的,运行于大规模普通服务器上的,大数据存储、计算、分析的,分布式存储系统和分布式运算框架 组成 1.分布式存储系统HDFS(Hadoop Distributed File System) namenode 管理者,在主节点。 存放元数据信息:文件大小、位置、块、索引等 datanode 在从节点,存数据的位置,是数据落地的地方 存放 2.资源管理系统YARN re...

2019-03-20 15:42:09 95

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除