Superman404-CSDN博客

原创 java利用ssh连接linux并执行shell脚本报错行1: java: 未找到命令

java利用ssh连接linux默认情况下执行shell脚本是使用非登录方式，然而非登录方式不会加载 /etc/profile 文件，在 shell脚本中添加如 #!/bin/sh -l 命令修改为登录方式即可解决问题。...

2019-04-11 16:28:21 2975

原创 Hive建表出现中文字段报错解决办法

遇到这个问题大家可能都会想到去修改字符编码，出发思路是对的问题：修改哪里字符编码大家都知道hive建表的元数据会存储在Mysql数据库中，具体的字段相关的对应元数据表COLUMNS_V2我就会想到去改表COLUMNS_V2的字符编码为utf8，如下mysql命令行执行：alter table COLUMNS_V2 modify column COMMENT varchar(256) ...

2019-04-10 17:04:54 3875

原创 Spark Shuffle文件寻址+内存管理

1.Spark Shuffle文件寻址MapOutputTracker（管理磁盘小文件）主从关系：MapOutputTrackerMaster（Driver）MapOutputTrackerWorker（Executor）BlockManager（块管理者）主从关系:BlockManagerMaster（Driver）1.DiskStore:管理磁盘数据2.MemoryStor...

2018-11-26 13:04:03 359

原创 Spark shuffle详解+调优

开始介绍Spark shuffle之前我先引入两个问题：reduceByKey的含义？reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value，然后生成一个新的RDD，元素类型是&lt;key,value&gt;对的形式，这样每一个key对应一个聚合起来的value。每一个key对应的value不一定都是在一个partition中，也不太可能在同...

2018-11-26 10:27:08 320

原创 Spark的资源调度和任务调度

我这里以standalone-client模式为例。。。。。。。1.资源调度①Worker向Master汇报资源②Master掌握集群的资源③new SparkContext（conf）创建DAGScheduler对象和TaskSchedule对象④TaskSchedule向Master申请资源⑤Master收到请求后，找到满足资源的节点，启动Executor⑥Executor启动之...

2018-11-23 22:27:17 355

原创 Spark中stage的划分以及宽窄依赖的详解

1.宽依赖与窄依赖RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖。窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的 partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。宽依赖父RDD与子RDD partition之间的关系是一对多。会有...

2018-11-23 20:33:36 1313

原创 Spark的四大运行模式以及原理

1.Local模式Spark的本地模式，在eclipse 或 IDEA中开发spark程序要用local模式，本地模式，多用于测试，下面我分别用java和 scala语言举出一个local模式的例子，这里我们以WordCount为例。eclipse中代码如下：import org.apache.spark.SparkConf;import org.apache.spark.api.java...

2018-11-21 15:53:56 1969

原创 Scala基础之函数篇

这里我写的是一些scala基础函数，每种函数后面会举出一个实例，需要注意的地方会在代码下方标注出来，希望对一些刚入门同学有帮助。。。。。。。。。。。。。。。。1.普通函数def max(a:Int,b:Int)={ if(a&gt;b) { a } else { b } } println(max(1,100))2.递归函数def fun(num:Int):...

2018-11-20 12:28:17 227

原创 HIVE的十项企业级调优。。。。。。

话不多说直接上货。。。。。。。。。。。。。。。。。。。。。。。。。。。1.Fetch抓取 set hive.fetch.task.conversion=more（默认）Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。该属性设置为 more 以后，在全局查找、字段查找、limit 查找等都不走 MapReduce。设置为none后所有类型的查找语...

2018-11-14 21:51:06 5038 3

原创使用Sqoop将数据从RDBMS(关系型数据库) 到hdfs和Hive的导入导出

一、RDBMS 到 HDFS/HIVE1.首先启动Mysql service mysql start2.在mysql中新建一张表并插入数据# mysql -uroot -prootmysql&amp;amp;amp;amp;gt; create table dept(id int primary key ,dname varchar(20),sex varchar(5));mysql&amp;amp;amp;amp;gt; insert .

2018-11-08 19:03:03 672

原创史上最简单详细的Hadoop完全分布式集群搭建

一.安装虚拟机环境Vmware12中文官方版链接：https://pan.baidu.com/s/1IGKVfaOtcFMFXNLHUQp41w 提取码：6rep激活秘钥：MA491-6NL5Q-AZAM0-ZH0N2-AAJ5A这个安装就十分的简单了，只需要不断点击下一步，直到安装完成就OK了；二.虚拟机的安装（Centos7）这个步骤我分享一个详细安装地址：https://www...

2018-10-31 21:51:52 51062 16

Mage的博客