自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Mage的博客

hadoop

  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 java利用ssh连接linux并执行shell脚本报错 行1: java: 未找到命令

java利用ssh连接linux默认情况下执行shell脚本是使用非登录方式,然而非登录方式不会加载 /etc/profile 文件,在 shell脚本 中 添加如 #!/bin/sh -l 命令修改为登录方式即可解决问题。...

2019-04-11 16:28:21 2975

原创 Hive建表出现中文字段报错解决办法

遇到这个问题大家可能都会想到去修改字符编码,出发思路是对的问题 : 修改哪里字符编码大家都知道hive建表的元数据会存储在Mysql数据库中,具体的字段相关的对应元数据表COLUMNS_V2我就会想到去改表COLUMNS_V2的字符编码为utf8,如下mysql命令行执行:alter table COLUMNS_V2 modify column COMMENT varchar(256) ...

2019-04-10 17:04:54 3875

原创 Spark Shuffle文件寻址+内存管理

1.Spark Shuffle文件寻址MapOutputTracker(管理磁盘小文件)主从关系:MapOutputTrackerMaster(Driver)MapOutputTrackerWorker(Executor)BlockManager(块管理者)主从关系:BlockManagerMaster(Driver)1.DiskStore:管理磁盘数据2.MemoryStor...

2018-11-26 13:04:03 359

原创 Spark shuffle详解+调优

开始介绍Spark shuffle之前我先引入两个问题:reduceByKey的含义?reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的value。每一个key对应的value不一定都是在一个partition中,也不太可能在同...

2018-11-26 10:27:08 320

原创 Spark的资源调度和任务调度

我这里以standalone-client模式为例。。。。。。。1.资源调度①Worker向Master汇报资源②Master掌握集群的资源③new SparkContext(conf)创建DAGScheduler对象和TaskSchedule对象④TaskSchedule向Master申请资源⑤Master收到请求后,找到满足资源的节点,启动Executor⑥Executor启动之...

2018-11-23 22:27:17 355

原创 Spark中stage的划分以及宽窄依赖的详解

1.宽依赖与窄依赖RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。窄依赖 父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的 partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。宽依赖父RDD与子RDD partition之间的关系是一对多。会有...

2018-11-23 20:33:36 1313

原创 Spark的四大运行模式以及原理

1.Local模式Spark的本地模式,在eclipse 或 IDEA中开发spark程序要用local模式,本地模式,多用于测试,下面我分别用java和 scala语言举出一个local模式的例子,这里我们以WordCount为例。eclipse中代码如下:import org.apache.spark.SparkConf;import org.apache.spark.api.java...

2018-11-21 15:53:56 1969

原创 Scala基础之函数篇

这里我写的是一些scala基础函数,每种函数后面会举出一个实例,需要注意的地方会在代码下方标注出来,希望对一些刚入门同学有帮助。。。。。。。。。。。。。。。。1.普通函数def max(a:Int,b:Int)={ if(a>b) { a } else { b } } println(max(1,100))2.递归函数def fun(num:Int):...

2018-11-20 12:28:17 227

原创 HIVE的十项企业级调优。。。。。。

话不多说直接上货。。。。。。。。。。。。。。。。。。。。。。。。。。。1.Fetch抓取 set hive.fetch.task.conversion=more(默认)Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。该属性设置为 more 以后,在全局查找、字段查找、limit 查找等都不走 MapReduce。 设置为none后所有类型的查找语...

2018-11-14 21:51:06 5038 3

原创 使用Sqoop将数据从RDBMS(关系型数据库) 到hdfs和Hive的导入导出

一、RDBMS 到 HDFS/HIVE1.首先启动Mysql service mysql start2.在mysql中新建一张表并插入数据# mysql -uroot -prootmysql> create table dept(id int primary key ,dname varchar(20),sex varchar(5));mysql> insert .

2018-11-08 19:03:03 672

原创 史上最简单详细的Hadoop完全分布式集群搭建

一.安装虚拟机环境Vmware12中文官方版 链接:https://pan.baidu.com/s/1IGKVfaOtcFMFXNLHUQp41w 提取码:6rep激活秘钥:MA491-6NL5Q-AZAM0-ZH0N2-AAJ5A这个安装就十分的简单了,只需要不断点击下一步,直到安装完成就OK了;二.虚拟机的安装(Centos7)这个步骤我分享一个详细安装地址:https://www...

2018-10-31 21:51:52 51062 16

hadoop集群服务开启脚本命令

hadoop集群服务开启命令 简单好用 一个命令开启所有服务 炫酷!!!!!!

2018-11-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除