自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(100)
  • 收藏
  • 关注

原创 DataStage登录报错:Failed to authenticate the current user against the selected Services Tier.

背景: 近期同事一直在使用DataStage登录查找作业,突然今天无法登陆了。报错:Failed to authenticate the current user against the selected Services Tier.结论:解决了。

2023-04-06 21:27:50 837

原创 Apache Hive 加载JSON数据与JSON解析

首先Hive提供了三种方案(应用于不同的场景):建表JsonSerDe内置函数get_json_object内置函数json_tuple1.使用JsonSerDe创建表加载JSON文件注意此种方式需要满足的条件:json文件必须是形如如下格式:下面 xxx可以是对象,也可以是数组{ key1:xxxx, key2:xx, key3,xxx}另外...

2020-07-21 23:45:22 427

原创 JVM 1.3 JVM 启动流程

JVM是Java程序运行的环境,但是他同时一个操作系统的一个应用程序一个进程,因此他也有他自己的运行的生命周期,也有自己的代码和数据空间。JVM工作原理和特点主要是指操作系统装入JVM是通过JDK中java.exe来完成,通过下面5步来完成JVM环境.目的备注备注1.Java xxx2.装载配置根据当前路径和系统的版本寻找jvm.cfg3.根据配置寻找jvm.dll4.初始化JVM获得JN...

2019-05-08 22:19:56 495

原创 JVM 1.1 初识JVM

1.JVM基本分类1) 使用软件模拟物理CPU指令集​ VMWare​ Visual Box2) 使用软件模拟Java字节码的指令集​ JVM2.JVM的发展1)1996年JDK1.0 Classic VM 纯解释运行的,即时编译(JIT)这能开外挂2)1998年JDK1.2,Solaris平台上发布 Exact VM(精确内存管理,但是很快被淘汰)—被之后更优秀的HotSpo...

2019-05-07 22:14:48 207

原创 Hadoop Mapreduce编程 MapJoin实现

1.Mapper端设计package com.mycat.mapd_movie_mapjoin;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text...

2019-04-30 09:10:00 240

原创 Spark SparkSQL的数据加载和落地

1.数据的加载使用read.load(path)默认加载的是parquet格式的文件,如果需要加载其他类型的文件,需要通过format(类型)指定。当然,spark对一些主要格式的文件的加载都提供了更加简洁的API操作方式加载json格式文件----要求文件的格式统一spark.read.format("csv").load("file:///C:\\Users\\mycat\\D...

2019-04-30 09:03:02 1059

原创 SparkSQL DataFrame和Dataset基本操作

1.正常打印输出1)创建SparkSessionval spark=SparkSession.builder().appName("dfdemo") .master("local[*]") .getOrCreate()2)准备创建RDDval personList: List[Person] = List( Person("1", "jack", 22),...

2019-04-29 21:08:50 713

原创 SparkSQL 入门简介

1.SparkSQL概述SparkSQL的前身是Shark,它的底层依赖于Hive,因此其发展受制于Hive的发展,后来项目组将Shark废弃,保留了其中非常优秀的特点:比如内存存储技术,动态字节码技术等,重新组织了一个项目,这个项目就是SparkSQL,通过Spark去操作Hive,即Spark-on-Hive,同时在hive里面也推出了一个子模块,是hive的计算引擎基于spark,即hiv...

2019-04-29 19:11:01 420

原创 Hadoop Mapreduce编程之Reduce端join实现

1.数据准备movies.dat 数据格式: // movieid::moviename::movietyperatings.dat 数据格式: // userid::movieid::rating::timestamp2.Mapper端开发1)定义必要的变量private String filename="";IntWritable mk=new IntWrita...

2019-04-29 15:41:05 158

原创 Hadoop Common 之序列化机制小解

1.Java Serializable序列化该序列化通过ObjectInputStream的readObject实现序列化,ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强,但是因为存储过多的信息,但是传输效率比较低,所以hadoop弃用它。(序列化信息包括这个对象的类,类签名,类的所有静态,费静态成员的值,以及他们父类都要被写入)p...

2019-04-29 15:28:33 209

原创 NameNode内存元数据和磁盘元数据以及SecondaryNameNode元数据比较

2019-04-26 21:38:11 683

原创 HDFS读流程图解

2019-04-26 21:06:32 97

原创 HDFS 写流程图解

2019-04-26 20:35:56 109

原创 Hadoop Configuration类简要小解

Hadoop-Common设计之Configuration1.Configuration设计1)常规属性boolean quietMode=true; // 是否静默加载---默认为true,即不打印日志信息,方便开发人员调试ArrayList<Object> resources;// 保存了通过addResource添加的Configuration对象资源,可传递输入流对象...

2019-04-19 21:53:09 564 1

原创 Apache HBase MapReduce实现导出数据到HBase

源HBASE表数据:2.4.1 :030 > scan 'mktest:mk1'ROW COLUMN+CELL ...

2019-04-03 13:36:56 275

原创 Apache HBASE 实现MapReduce实现HBASE数据导入到Hdfs

数据准备:mktest:mk3.... 95021 column=user:age, timestamp=1554208964508, value=17 95021 ...

2019-04-03 13:35:30 777

原创 Apache HBase MapReduce实现Hdfs导出数据到HBase

实现从Hdfs导出数据到HBASE存储1.数据准备(student.txt)95001,李勇,男,20,CS95002,刘晨,女,19,IS95003,王敏,女,22,MA95004,张立,男,19,IS95005,刘刚,男,18,MA95006,孙庆,男,23,CS95007,易思玲,女,19,MA95008,李娜,女,18,CS95009,梦圆圆,女,18,MA950...

2019-04-03 13:34:20 373

原创 Apache HBase 2.x JavaAPI操作(上)

Hbase 1.x版本和2.x版本,虽然进行了大量的重构和优化,一些API也已经能抛弃,单核心API没有改多少。本处:HBASE 2.0.5版本1.测试准备1)获取HBASE配置对象Configuration conf = HBaseConfiguration.create();conf.set("hbase.zookeeper.quorum","mycat01,mycat02,m...

2019-04-01 22:20:24 2756

原创 Apache HBASE的DML操作

1)添加数据# 添加数据首先需要指定行键put 'namespace:表名','行键','列族:列1','列值’ # 插入时设置时间戳,不使用系统时间戳(代表版本信息)put 'namespace:表名','行键','列族:列1','列值’,时间戳# 添加数据首先需要指定行键put 'namespace:表名','行键','列族:列1','列值’ ,{ATTRIBUTES =&gt...

2019-04-01 19:09:26 230

原创 Apache Hbase shell之namespace与ddl操作

通用命令:help 查看帮助文档help '命令':查看命令详细说明version 查看hbase版本信息whoami 查看hbase用户信息1.namespace虽然hbase没有数据库这一概念,但是namespace也就是命名空间的概念,就是数据库的意思# 创建namespace:create namespace 'xxx';# 查看namespacce 详细描述信...

2019-04-01 10:42:54 422

原创 Apache HBASE的安装

1.HBASE的版本特别注意(官网有说明)可以说hbase对各JDK版本和HADOOP的版本都支持不一对于JDK,目前推荐 8.x 版本对于hadoop:2.7.x 推荐 2.7.6+2.8.x 推荐 2.8.3+本次版本展示:hadoop:Apache 2.7.7版本,JDK 1.8.0_73,HBASE版本 2.0.52.安装准备由于HBASE依赖于HADOOP,JDK...

2019-04-01 10:40:48 227

原创 Apache AzKaban 环境搭建与入门使用

1.azkaban的环境搭建要求:由于这里azkaban要调度hive作业,可能存在调度sqoop等作业,因此需要安装在有这些节点的机器上1)上传jar包并解压缩(三个)mkdir /home/hadoop/azkaban# 上传3个jar包到该目录下[hadoop@mycat01 azkaban]$ ll /home/hadoop/azkaban-rwxrw-r-- 1 hado...

2019-04-01 10:38:38 760

原创 Apache Sqoop Hive导出到MySQL

1.目标库MySQL相关参数1)连接配置--connect jdbc:oracle:thin:@//10.xx.xx.xxx:1521/orcl --username bdas --password xxx2)表的配置--table xxx2.hive参数配置1)基本配置--export-dir /user/hive/warehouse/dm.db/t_prc_video_j...

2019-04-01 10:36:53 434

原创 Apache Sqoop的数据导入之MySQL与Hive&Hdfs数据导入导出参数分类

我们知道sqoop命令最终还是会解释为mapreduce代码执行,但是有一点值得注意的是,sqoop的数据迁移对应的只有maptask,没有reducetask,也就是说基本上不用担心数据倾斜问题了。最核心的sqoop命令就类似hive 一样,目的是为了启动一个客户端。1.外围指令(不涉及到数据导入导出相关的)1) 查看当前MySQL中有哪几个数据库list-databasessqo...

2019-04-01 10:34:13 457

原创 Apache Sqoop 安装

1.Sqoop简介主要是解决关系型数据库与大数据平台的数据迁移。例如:MySQL|Oracle ======> Hadoop生态Hadoop生态 ======> MySQL|Oraclesqoop进行数据迁移的本质sqoop就是将sqoop的命令转换为mapreduce任务进行数据迁移的。sqoop是hadoop的另一种形式的客户端...

2019-03-28 22:08:38 171

原创 Apache Hadoop HA集群环境搭建

NameNode 做了HA,ResourceManager也做了HA1.HA集群节点概览电脑配置不够,所以NameNode所在节点上装了DataNode,实际开发搭建的话,NameNode所在节点上不要放DataNode注意:此处不说zookeeper的部分,上篇文章 https://blog.csdn.net/qq_33713328/article/details/88854991...

2019-03-27 22:35:11 202

原创 Apache Zookeeper 集群的搭建

注:zookeeper集群配置需要为奇数个并且 > 11.节点概览节点IP节点主机名Zookeeper端口192.168.183.81mycat012181192.168.183.82mycat022181192.168.183.83mycat032181这里默认我已经对三节点安装了jdk,并配置了JAVA_HOME到PATH,因为...

2019-03-27 20:46:35 443

原创 Apache Hive 执行流程之select标准查询

select 字段 from 表 [limit 3];Hive中select *与select 全字段的性能比较,select *查询速度更慢?Hive中使用limit关键字比不使用limit关键字更慢?1.测试数据student表结构hive> desc student;OKstuid int ...

2019-03-23 20:58:40 298

原创 Apache Hive其他类交互式命令和命令行命令

1.Hive交互式命令所谓的交互式值的是类似MySQL交互式模式,即命令行直接输入hive,直接在里面写hql语句。quit;set xxxx=xxx; -- 设置hive的参数和属性的,只限于当前客户端,当前客户端退出则参数失效,永久生效则写在配置文件中-- 例如: set hive.exec.mode.local.auto=true-- 修改hive的参数3个地方h...

2019-03-23 19:24:30 179

转载 Apache Hive 常用的 SerDe

转:http://blog.csdn.net/mike_h/article/details/50161555最近在 Google 上看到一篇在 Hive 中利用正则表达式来自定义反序列化处理文本文件。百度后发现这块知识目前还没有人系统的总结一下。所以我就不才把之前记录的资料跟大家分享一下:SerDe 是Serializer 和 Deserializer 的简称。它是 Hive用来处理记录并且...

2019-03-22 19:18:56 1537

原创 Apache Hive 自定义函数UDF函数

1.Hive 函数分类进一条数据出一条数据:(UDF 用户自定义函数)​ substr() from_unixtime()等进多条数据出一条数据:(UDAF 用户定义聚合函数)​ sum,count,max,min等进一条数据出多条数据:(UDTF 用户定义表函数)​ explode2.使用java开发UDF函数实现求某一个字符串中某子串出现的次数1)准备...

2019-03-22 19:10:14 293

原创 Apache Hive 多字节分割数据文件导入

由于hive默认使用的SerDe(序列化与反序列化)接口类是org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,而这个接口是不支持多字符分割的,所以对需要多分隔符数据文件进行导入时,即便指定多字节分隔符,出来的数据一般都是有问题的。解决方案是使用: org.apache.hadoop.hive.serde2.RegexSeDe接口,即使用正则...

2019-03-22 18:37:17 424

原创 Apache Hive 垃圾回收

由于hive对hive表的管理实质上就是管理hdfs目录,因此相对来说垃圾回收相对来说比较简单1.hive 外部表的删除由于外部表不由hive管理,因此,在hive里面删除外部表,删除的仅仅是hive的元数据,原始数据还存在hdfs上,所以对于外部表而言,只需要重建一下表,然后重新装载一下数据即可。2.hive 内部表的删除由于hive内部表的管理者是hive,因此,hive的内部表删...

2019-03-22 18:20:18 959

原创 Apache Hive 远程连接

主要使用beeline工具连接到远程hive服务端,这里的beeline所在节点不必是hadoop集群节点1.上传hive的安装包并解压beeline所在的客户端节点只需要一个hive安装包即可(这里上传到/opt)sudo tar -zxvf apache-hive-2.3.4-bin.tar.gz cd apache-hive-2.3.4-bin/bin2.修改hadoop集群...

2019-03-22 18:02:35 314

原创 Apache Hive 常用内置函数及其使用

1.内置函数:(270+)show functions; -- 显示hive内置函数列表2.查看hive函数的用法(描述信息)desc function 函数名;desc function sum;desc function extended 函数名;desc function extended sum; -- 可以查看使用案例3.常用内置函数1)字符串操作函数split(...

2019-03-21 19:49:29 270

原创 Apache Hive 数据类型

1.原子数据类型tinyintsmallintintbigintbooleanfloatdoublestring -- 双引号和单引号都可以timestamp2.复杂数据类型1)array 数组类型array:用于存放相同数据类型的一组数据,使用该类型时一定要使用泛型 <泛型> array<string>使用时需要指定分...

2019-03-21 19:45:37 149

原创 Apache Hive order by与sort by以及distribute by 配合sort by 和cluster by的区别

1.order by与sort by以及distribute by 配合sort by 和cluster by的区别先记结论:order by: 全局排序,全局有序,无论数据量多大,只会有一个reducetask运行,所以当数据量比较大的时候,性能会大打折扣。(手动设置reducetask对其没有影响)sort by: 会根据数据量自动调整reducetask的个数的(hive2.x默认ma...

2019-03-21 08:48:22 471

原创 Apache Hive where|having以及group by使用注意事项

1.where与having使用注意事项两个与聚合函数使用时where 执行是在聚合函数之前,having是在聚合函数之后where是对聚合之前的数据做过滤的,having则是对聚合之后的数据(聚合结果)的过滤的。2.group by 分组① group by 执行顺序是在select 之前的。因此group by中不能使用select 后面字段的别名的。② 有group by 进行分...

2019-03-20 15:00:10 2525

原创 Apache Hive join操作

hive中对in 与 exists的查询比较弱,hive2中支持,但是性能比较差,hive1中不支持注意:hive中支持等值连接,但是不支持非等值连接hive 支持多关联键的连接的,但是仅仅支持and的,不支持or的。hive支持多表joinhive join分类:内连接,外连接和半连接1.内连接 inner join|join求两表交集select * fr...

2019-03-20 14:49:54 115

原创 Apache Hive 数据导出

1.单重导出local 表示导出到本地,否则导出到hdfsinsert overwrite [local] directory '目录路径' select xxxx from 表名 [where xxx];2.多重导出对表扫描一次,导出多个结果from xxxinsert overwrite local directory '' select * where age =1...

2019-03-20 14:32:06 102

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除