猫君之上-CSDN博客

原创 DataStage登录报错：Failed to authenticate the current user against the selected Services Tier.

背景: 近期同事一直在使用DataStage登录查找作业，突然今天无法登陆了。报错：Failed to authenticate the current user against the selected Services Tier.结论：解决了。

2023-04-06 21:27:50 837

原创 Apache Hive 加载JSON数据与JSON解析

首先Hive提供了三种方案（应用于不同的场景）：建表JsonSerDe内置函数get_json_object内置函数json_tuple1.使用JsonSerDe创建表加载JSON文件注意此种方式需要满足的条件：json文件必须是形如如下格式：下面 xxx可以是对象，也可以是数组{ key1:xxxx, key2:xx, key3,xxx}另外...

2020-07-21 23:45:22 427

原创 JVM 1.3 JVM 启动流程

JVM是Java程序运行的环境,但是他同时一个操作系统的一个应用程序一个进程,因此他也有他自己的运行的生命周期,也有自己的代码和数据空间。JVM工作原理和特点主要是指操作系统装入JVM是通过JDK中java.exe来完成,通过下面5步来完成JVM环境.目的备注备注1.Java xxx2.装载配置根据当前路径和系统的版本寻找jvm.cfg3.根据配置寻找jvm.dll4.初始化JVM获得JN...

2019-05-08 22:19:56 495

原创 JVM 1.1 初识JVM

1.JVM基本分类1) 使用软件模拟物理CPU指令集 VMWare Visual Box2) 使用软件模拟Java字节码的指令集 JVM2.JVM的发展1）1996年JDK1.0 Classic VM 纯解释运行的，即时编译（JIT）这能开外挂2）1998年JDK1.2，Solaris平台上发布 Exact VM（精确内存管理，但是很快被淘汰）—被之后更优秀的HotSpo...

2019-05-07 22:14:48 207

原创 Hadoop Mapreduce编程 MapJoin实现

1.Mapper端设计package com.mycat.mapd_movie_mapjoin;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text...

2019-04-30 09:10:00 240

原创 Spark SparkSQL的数据加载和落地

1.数据的加载使用read.load(path)默认加载的是parquet格式的文件，如果需要加载其他类型的文件，需要通过format(类型)指定。当然，spark对一些主要格式的文件的加载都提供了更加简洁的API操作方式加载json格式文件----要求文件的格式统一spark.read.format("csv").load("file:///C:\\Users\\mycat\\D...

2019-04-30 09:03:02 1059

原创 SparkSQL DataFrame和Dataset基本操作

1.正常打印输出1）创建SparkSessionval spark=SparkSession.builder().appName("dfdemo") .master("local[*]") .getOrCreate()2）准备创建RDDval personList: List[Person] = List( Person("1", "jack", 22),...

2019-04-29 21:08:50 713

1.SparkSQL概述SparkSQL的前身是Shark，它的底层依赖于Hive，因此其发展受制于Hive的发展，后来项目组将Shark废弃，保留了其中非常优秀的特点：比如内存存储技术，动态字节码技术等，重新组织了一个项目，这个项目就是SparkSQL，通过Spark去操作Hive，即Spark-on-Hive,同时在hive里面也推出了一个子模块，是hive的计算引擎基于spark，即hiv...

2019-04-29 19:11:01 420

原创 Hadoop Mapreduce编程之Reduce端join实现

1.数据准备movies.dat 数据格式： // movieid::moviename::movietyperatings.dat 数据格式： // userid::movieid::rating::timestamp2.Mapper端开发1）定义必要的变量private String filename="";IntWritable mk=new IntWrita...

2019-04-29 15:41:05 158

原创 Hadoop Common 之序列化机制小解

1.Java Serializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）p...

2019-04-29 15:28:33 209

原创 NameNode内存元数据和磁盘元数据以及SecondaryNameNode元数据比较

2019-04-26 21:38:11 683

原创 HDFS读流程图解

2019-04-26 21:06:32 97

原创 HDFS 写流程图解

2019-04-26 20:35:56 109

原创 Hadoop Configuration类简要小解

Hadoop-Common设计之Configuration1.Configuration设计1）常规属性boolean quietMode=true; // 是否静默加载---默认为true，即不打印日志信息，方便开发人员调试ArrayList<Object> resources;// 保存了通过addResource添加的Configuration对象资源，可传递输入流对象...

2019-04-19 21:53:09 564 1

原创 Apache HBase MapReduce实现导出数据到HBase

源HBASE表数据：2.4.1 :030 > scan 'mktest:mk1'ROW COLUMN+CELL ...

2019-04-03 13:36:56 275

原创 Apache HBASE 实现MapReduce实现HBASE数据导入到Hdfs

数据准备：mktest:mk3.... 95021 column=user:age, timestamp=1554208964508, value=17 95021 ...

2019-04-03 13:35:30 777

原创 Apache HBase MapReduce实现Hdfs导出数据到HBase

实现从Hdfs导出数据到HBASE存储1.数据准备(student.txt)95001,李勇,男,20,CS95002,刘晨,女,19,IS95003,王敏,女,22,MA95004,张立,男,19,IS95005,刘刚,男,18,MA95006,孙庆,男,23,CS95007,易思玲,女,19,MA95008,李娜,女,18,CS95009,梦圆圆,女,18,MA950...

2019-04-03 13:34:20 373

原创 Apache HBase 2.x JavaAPI操作（上）

Hbase 1.x版本和2.x版本，虽然进行了大量的重构和优化，一些API也已经能抛弃，单核心API没有改多少。本处：HBASE 2.0.5版本1.测试准备1）获取HBASE配置对象Configuration conf = HBaseConfiguration.create();conf.set("hbase.zookeeper.quorum","mycat01,mycat02,m...

2019-04-01 22:20:24 2756

原创 Apache HBASE的DML操作

1）添加数据# 添加数据首先需要指定行键put 'namespace:表名','行键','列族:列1'，'列值’ # 插入时设置时间戳，不使用系统时间戳（代表版本信息）put 'namespace:表名','行键','列族:列1'，'列值’,时间戳# 添加数据首先需要指定行键put 'namespace:表名','行键','列族:列1'，'列值’ ，{ATTRIBUTES =&gt...

2019-04-01 19:09:26 230

原创 Apache Hbase shell之namespace与ddl操作

通用命令：help 查看帮助文档help '命令'：查看命令详细说明version 查看hbase版本信息whoami 查看hbase用户信息1.namespace虽然hbase没有数据库这一概念，但是namespace也就是命名空间的概念，就是数据库的意思# 创建namespace:create namespace 'xxx';# 查看namespacce 详细描述信...

2019-04-01 10:42:54 422

原创 Apache HBASE的安装

1.HBASE的版本特别注意（官网有说明）可以说hbase对各JDK版本和HADOOP的版本都支持不一对于JDK，目前推荐 8.x 版本对于hadoop：2.7.x 推荐 2.7.6+2.8.x 推荐 2.8.3+本次版本展示：hadoop：Apache 2.7.7版本，JDK 1.8.0_73,HBASE版本 2.0.52.安装准备由于HBASE依赖于HADOOP，JDK...

2019-04-01 10:40:48 227

原创 Apache AzKaban 环境搭建与入门使用

1.azkaban的环境搭建要求：由于这里azkaban要调度hive作业，可能存在调度sqoop等作业，因此需要安装在有这些节点的机器上1）上传jar包并解压缩(三个)mkdir /home/hadoop/azkaban# 上传3个jar包到该目录下[hadoop@mycat01 azkaban]$ ll /home/hadoop/azkaban-rwxrw-r-- 1 hado...

2019-04-01 10:38:38 760

原创 Apache Sqoop Hive导出到MySQL

1.目标库MySQL相关参数1）连接配置--connect jdbc:oracle:thin:@//10.xx.xx.xxx:1521/orcl --username bdas --password xxx2）表的配置--table xxx2.hive参数配置1）基本配置--export-dir /user/hive/warehouse/dm.db/t_prc_video_j...

2019-04-01 10:36:53 434

原创 Apache Sqoop的数据导入之MySQL与Hive&Hdfs数据导入导出参数分类

我们知道sqoop命令最终还是会解释为mapreduce代码执行，但是有一点值得注意的是，sqoop的数据迁移对应的只有maptask，没有reducetask，也就是说基本上不用担心数据倾斜问题了。最核心的sqoop命令就类似hive 一样，目的是为了启动一个客户端。1.外围指令（不涉及到数据导入导出相关的）1) 查看当前MySQL中有哪几个数据库list-databasessqo...

2019-04-01 10:34:13 457

原创 Apache Sqoop 安装

1.Sqoop简介主要是解决关系型数据库与大数据平台的数据迁移。例如：MySQL|Oracle ======> Hadoop生态Hadoop生态 ======> MySQL|Oraclesqoop进行数据迁移的本质sqoop就是将sqoop的命令转换为mapreduce任务进行数据迁移的。sqoop是hadoop的另一种形式的客户端...

2019-03-28 22:08:38 171

原创 Apache Hadoop HA集群环境搭建

NameNode 做了HA，ResourceManager也做了HA1.HA集群节点概览电脑配置不够，所以NameNode所在节点上装了DataNode,实际开发搭建的话，NameNode所在节点上不要放DataNode注意：此处不说zookeeper的部分，上篇文章 https://blog.csdn.net/qq_33713328/article/details/88854991...

2019-03-27 22:35:11 202

原创 Apache Zookeeper 集群的搭建

注：zookeeper集群配置需要为奇数个并且 > 11.节点概览节点IP节点主机名Zookeeper端口192.168.183.81mycat012181192.168.183.82mycat022181192.168.183.83mycat032181这里默认我已经对三节点安装了jdk，并配置了JAVA_HOME到PATH，因为...

2019-03-27 20:46:35 443

原创 Apache Hive 执行流程之select标准查询

select 字段 from 表 [limit 3];Hive中select *与select 全字段的性能比较，select *查询速度更慢？Hive中使用limit关键字比不使用limit关键字更慢？1.测试数据student表结构hive> desc student;OKstuid int ...

2019-03-23 20:58:40 298

原创 Apache Hive其他类交互式命令和命令行命令

1.Hive交互式命令所谓的交互式值的是类似MySQL交互式模式，即命令行直接输入hive，直接在里面写hql语句。quit;set xxxx=xxx; -- 设置hive的参数和属性的，只限于当前客户端，当前客户端退出则参数失效，永久生效则写在配置文件中-- 例如： set hive.exec.mode.local.auto=true-- 修改hive的参数3个地方h...

2019-03-23 19:24:30 179

转载 Apache Hive 常用的 SerDe

转：http://blog.csdn.net/mike_h/article/details/50161555最近在 Google 上看到一篇在 Hive 中利用正则表达式来自定义反序列化处理文本文件。百度后发现这块知识目前还没有人系统的总结一下。所以我就不才把之前记录的资料跟大家分享一下：SerDe 是Serializer 和 Deserializer 的简称。它是 Hive用来处理记录并且...

2019-03-22 19:18:56 1537

原创 Apache Hive 自定义函数UDF函数

1.Hive 函数分类进一条数据出一条数据：(UDF 用户自定义函数) substr() from_unixtime()等进多条数据出一条数据：(UDAF 用户定义聚合函数) sum,count,max,min等进一条数据出多条数据：(UDTF 用户定义表函数) explode2.使用java开发UDF函数实现求某一个字符串中某子串出现的次数1）准备...

2019-03-22 19:10:14 293

原创 Apache Hive 多字节分割数据文件导入

由于hive默认使用的SerDe(序列化与反序列化)接口类是org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,而这个接口是不支持多字符分割的，所以对需要多分隔符数据文件进行导入时，即便指定多字节分隔符，出来的数据一般都是有问题的。解决方案是使用: org.apache.hadoop.hive.serde2.RegexSeDe接口，即使用正则...

2019-03-22 18:37:17 424

原创 Apache Hive 垃圾回收

由于hive对hive表的管理实质上就是管理hdfs目录，因此相对来说垃圾回收相对来说比较简单1.hive 外部表的删除由于外部表不由hive管理，因此，在hive里面删除外部表，删除的仅仅是hive的元数据，原始数据还存在hdfs上，所以对于外部表而言，只需要重建一下表，然后重新装载一下数据即可。2.hive 内部表的删除由于hive内部表的管理者是hive，因此，hive的内部表删...

2019-03-22 18:20:18 959

原创 Apache Hive 远程连接

主要使用beeline工具连接到远程hive服务端，这里的beeline所在节点不必是hadoop集群节点1.上传hive的安装包并解压beeline所在的客户端节点只需要一个hive安装包即可(这里上传到/opt)sudo tar -zxvf apache-hive-2.3.4-bin.tar.gz cd apache-hive-2.3.4-bin/bin2.修改hadoop集群...

2019-03-22 18:02:35 314

原创 Apache Hive 常用内置函数及其使用

1.内置函数：（270+）show functions; -- 显示hive内置函数列表2.查看hive函数的用法(描述信息)desc function 函数名;desc function sum;desc function extended 函数名;desc function extended sum; -- 可以查看使用案例3.常用内置函数1）字符串操作函数split(...

2019-03-21 19:49:29 270

原创 Apache Hive 数据类型

1.原子数据类型tinyintsmallintintbigintbooleanfloatdoublestring -- 双引号和单引号都可以timestamp2.复杂数据类型1）array 数组类型array:用于存放相同数据类型的一组数据，使用该类型时一定要使用泛型 <泛型> array<string>使用时需要指定分...

2019-03-21 19:45:37 149

原创 Apache Hive order by与sort by以及distribute by 配合sort by 和cluster by的区别

1.order by与sort by以及distribute by 配合sort by 和cluster by的区别先记结论：order by: 全局排序，全局有序，无论数据量多大，只会有一个reducetask运行，所以当数据量比较大的时候，性能会大打折扣。（手动设置reducetask对其没有影响）sort by: 会根据数据量自动调整reducetask的个数的（hive2.x默认ma...

2019-03-21 08:48:22 471

原创 Apache Hive where|having以及group by使用注意事项

1.where与having使用注意事项两个与聚合函数使用时where 执行是在聚合函数之前，having是在聚合函数之后where是对聚合之前的数据做过滤的，having则是对聚合之后的数据（聚合结果）的过滤的。2.group by 分组① group by 执行顺序是在select 之前的。因此group by中不能使用select 后面字段的别名的。② 有group by 进行分...

2019-03-20 15:00:10 2525

原创 Apache Hive join操作

hive中对in 与 exists的查询比较弱，hive2中支持，但是性能比较差，hive1中不支持注意：hive中支持等值连接，但是不支持非等值连接hive 支持多关联键的连接的，但是仅仅支持and的，不支持or的。hive支持多表joinhive join分类：内连接，外连接和半连接1.内连接 inner join|join求两表交集select * fr...

2019-03-20 14:49:54 115

原创 Apache Hive 数据导出

1.单重导出local 表示导出到本地，否则导出到hdfsinsert overwrite [local] directory '目录路径' select xxxx from 表名 [where xxx];2.多重导出对表扫描一次，导出多个结果from xxxinsert overwrite local directory '' select * where age =1...

2019-03-20 14:32:06 102

空空如也

空空如也