- 博客(100)
- 收藏
- 关注
原创 DataStage登录报错:Failed to authenticate the current user against the selected Services Tier.
背景: 近期同事一直在使用DataStage登录查找作业,突然今天无法登陆了。报错:Failed to authenticate the current user against the selected Services Tier.结论:解决了。
2023-04-06 21:27:50 837
原创 Apache Hive 加载JSON数据与JSON解析
首先Hive提供了三种方案(应用于不同的场景):建表JsonSerDe内置函数get_json_object内置函数json_tuple1.使用JsonSerDe创建表加载JSON文件注意此种方式需要满足的条件:json文件必须是形如如下格式:下面 xxx可以是对象,也可以是数组{ key1:xxxx, key2:xx, key3,xxx}另外...
2020-07-21 23:45:22 427
原创 JVM 1.3 JVM 启动流程
JVM是Java程序运行的环境,但是他同时一个操作系统的一个应用程序一个进程,因此他也有他自己的运行的生命周期,也有自己的代码和数据空间。JVM工作原理和特点主要是指操作系统装入JVM是通过JDK中java.exe来完成,通过下面5步来完成JVM环境.目的备注备注1.Java xxx2.装载配置根据当前路径和系统的版本寻找jvm.cfg3.根据配置寻找jvm.dll4.初始化JVM获得JN...
2019-05-08 22:19:56 495
原创 JVM 1.1 初识JVM
1.JVM基本分类1) 使用软件模拟物理CPU指令集 VMWare Visual Box2) 使用软件模拟Java字节码的指令集 JVM2.JVM的发展1)1996年JDK1.0 Classic VM 纯解释运行的,即时编译(JIT)这能开外挂2)1998年JDK1.2,Solaris平台上发布 Exact VM(精确内存管理,但是很快被淘汰)—被之后更优秀的HotSpo...
2019-05-07 22:14:48 207
原创 Hadoop Mapreduce编程 MapJoin实现
1.Mapper端设计package com.mycat.mapd_movie_mapjoin;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text...
2019-04-30 09:10:00 240
原创 Spark SparkSQL的数据加载和落地
1.数据的加载使用read.load(path)默认加载的是parquet格式的文件,如果需要加载其他类型的文件,需要通过format(类型)指定。当然,spark对一些主要格式的文件的加载都提供了更加简洁的API操作方式加载json格式文件----要求文件的格式统一spark.read.format("csv").load("file:///C:\\Users\\mycat\\D...
2019-04-30 09:03:02 1059
原创 SparkSQL DataFrame和Dataset基本操作
1.正常打印输出1)创建SparkSessionval spark=SparkSession.builder().appName("dfdemo") .master("local[*]") .getOrCreate()2)准备创建RDDval personList: List[Person] = List( Person("1", "jack", 22),...
2019-04-29 21:08:50 713
原创 SparkSQL 入门简介
1.SparkSQL概述SparkSQL的前身是Shark,它的底层依赖于Hive,因此其发展受制于Hive的发展,后来项目组将Shark废弃,保留了其中非常优秀的特点:比如内存存储技术,动态字节码技术等,重新组织了一个项目,这个项目就是SparkSQL,通过Spark去操作Hive,即Spark-on-Hive,同时在hive里面也推出了一个子模块,是hive的计算引擎基于spark,即hiv...
2019-04-29 19:11:01 420
原创 Hadoop Mapreduce编程之Reduce端join实现
1.数据准备movies.dat 数据格式: // movieid::moviename::movietyperatings.dat 数据格式: // userid::movieid::rating::timestamp2.Mapper端开发1)定义必要的变量private String filename="";IntWritable mk=new IntWrita...
2019-04-29 15:41:05 158
原创 Hadoop Common 之序列化机制小解
1.Java Serializable序列化该序列化通过ObjectInputStream的readObject实现序列化,ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强,但是因为存储过多的信息,但是传输效率比较低,所以hadoop弃用它。(序列化信息包括这个对象的类,类签名,类的所有静态,费静态成员的值,以及他们父类都要被写入)p...
2019-04-29 15:28:33 209
原创 Hadoop Configuration类简要小解
Hadoop-Common设计之Configuration1.Configuration设计1)常规属性boolean quietMode=true; // 是否静默加载---默认为true,即不打印日志信息,方便开发人员调试ArrayList<Object> resources;// 保存了通过addResource添加的Configuration对象资源,可传递输入流对象...
2019-04-19 21:53:09 564 1
原创 Apache HBase MapReduce实现导出数据到HBase
源HBASE表数据:2.4.1 :030 > scan 'mktest:mk1'ROW COLUMN+CELL ...
2019-04-03 13:36:56 275
原创 Apache HBASE 实现MapReduce实现HBASE数据导入到Hdfs
数据准备:mktest:mk3.... 95021 column=user:age, timestamp=1554208964508, value=17 95021 ...
2019-04-03 13:35:30 777
原创 Apache HBase MapReduce实现Hdfs导出数据到HBase
实现从Hdfs导出数据到HBASE存储1.数据准备(student.txt)95001,李勇,男,20,CS95002,刘晨,女,19,IS95003,王敏,女,22,MA95004,张立,男,19,IS95005,刘刚,男,18,MA95006,孙庆,男,23,CS95007,易思玲,女,19,MA95008,李娜,女,18,CS95009,梦圆圆,女,18,MA950...
2019-04-03 13:34:20 373
原创 Apache HBase 2.x JavaAPI操作(上)
Hbase 1.x版本和2.x版本,虽然进行了大量的重构和优化,一些API也已经能抛弃,单核心API没有改多少。本处:HBASE 2.0.5版本1.测试准备1)获取HBASE配置对象Configuration conf = HBaseConfiguration.create();conf.set("hbase.zookeeper.quorum","mycat01,mycat02,m...
2019-04-01 22:20:24 2756
原创 Apache HBASE的DML操作
1)添加数据# 添加数据首先需要指定行键put 'namespace:表名','行键','列族:列1','列值’ # 插入时设置时间戳,不使用系统时间戳(代表版本信息)put 'namespace:表名','行键','列族:列1','列值’,时间戳# 添加数据首先需要指定行键put 'namespace:表名','行键','列族:列1','列值’ ,{ATTRIBUTES =>...
2019-04-01 19:09:26 230
原创 Apache Hbase shell之namespace与ddl操作
通用命令:help 查看帮助文档help '命令':查看命令详细说明version 查看hbase版本信息whoami 查看hbase用户信息1.namespace虽然hbase没有数据库这一概念,但是namespace也就是命名空间的概念,就是数据库的意思# 创建namespace:create namespace 'xxx';# 查看namespacce 详细描述信...
2019-04-01 10:42:54 422
原创 Apache HBASE的安装
1.HBASE的版本特别注意(官网有说明)可以说hbase对各JDK版本和HADOOP的版本都支持不一对于JDK,目前推荐 8.x 版本对于hadoop:2.7.x 推荐 2.7.6+2.8.x 推荐 2.8.3+本次版本展示:hadoop:Apache 2.7.7版本,JDK 1.8.0_73,HBASE版本 2.0.52.安装准备由于HBASE依赖于HADOOP,JDK...
2019-04-01 10:40:48 227
原创 Apache AzKaban 环境搭建与入门使用
1.azkaban的环境搭建要求:由于这里azkaban要调度hive作业,可能存在调度sqoop等作业,因此需要安装在有这些节点的机器上1)上传jar包并解压缩(三个)mkdir /home/hadoop/azkaban# 上传3个jar包到该目录下[hadoop@mycat01 azkaban]$ ll /home/hadoop/azkaban-rwxrw-r-- 1 hado...
2019-04-01 10:38:38 760
原创 Apache Sqoop Hive导出到MySQL
1.目标库MySQL相关参数1)连接配置--connect jdbc:oracle:thin:@//10.xx.xx.xxx:1521/orcl --username bdas --password xxx2)表的配置--table xxx2.hive参数配置1)基本配置--export-dir /user/hive/warehouse/dm.db/t_prc_video_j...
2019-04-01 10:36:53 434
原创 Apache Sqoop的数据导入之MySQL与Hive&Hdfs数据导入导出参数分类
我们知道sqoop命令最终还是会解释为mapreduce代码执行,但是有一点值得注意的是,sqoop的数据迁移对应的只有maptask,没有reducetask,也就是说基本上不用担心数据倾斜问题了。最核心的sqoop命令就类似hive 一样,目的是为了启动一个客户端。1.外围指令(不涉及到数据导入导出相关的)1) 查看当前MySQL中有哪几个数据库list-databasessqo...
2019-04-01 10:34:13 457
原创 Apache Sqoop 安装
1.Sqoop简介主要是解决关系型数据库与大数据平台的数据迁移。例如:MySQL|Oracle ======> Hadoop生态Hadoop生态 ======> MySQL|Oraclesqoop进行数据迁移的本质sqoop就是将sqoop的命令转换为mapreduce任务进行数据迁移的。sqoop是hadoop的另一种形式的客户端...
2019-03-28 22:08:38 171
原创 Apache Hadoop HA集群环境搭建
NameNode 做了HA,ResourceManager也做了HA1.HA集群节点概览电脑配置不够,所以NameNode所在节点上装了DataNode,实际开发搭建的话,NameNode所在节点上不要放DataNode注意:此处不说zookeeper的部分,上篇文章 https://blog.csdn.net/qq_33713328/article/details/88854991...
2019-03-27 22:35:11 202
原创 Apache Zookeeper 集群的搭建
注:zookeeper集群配置需要为奇数个并且 > 11.节点概览节点IP节点主机名Zookeeper端口192.168.183.81mycat012181192.168.183.82mycat022181192.168.183.83mycat032181这里默认我已经对三节点安装了jdk,并配置了JAVA_HOME到PATH,因为...
2019-03-27 20:46:35 443
原创 Apache Hive 执行流程之select标准查询
select 字段 from 表 [limit 3];Hive中select *与select 全字段的性能比较,select *查询速度更慢?Hive中使用limit关键字比不使用limit关键字更慢?1.测试数据student表结构hive> desc student;OKstuid int ...
2019-03-23 20:58:40 298
原创 Apache Hive其他类交互式命令和命令行命令
1.Hive交互式命令所谓的交互式值的是类似MySQL交互式模式,即命令行直接输入hive,直接在里面写hql语句。quit;set xxxx=xxx; -- 设置hive的参数和属性的,只限于当前客户端,当前客户端退出则参数失效,永久生效则写在配置文件中-- 例如: set hive.exec.mode.local.auto=true-- 修改hive的参数3个地方h...
2019-03-23 19:24:30 179
转载 Apache Hive 常用的 SerDe
转:http://blog.csdn.net/mike_h/article/details/50161555最近在 Google 上看到一篇在 Hive 中利用正则表达式来自定义反序列化处理文本文件。百度后发现这块知识目前还没有人系统的总结一下。所以我就不才把之前记录的资料跟大家分享一下:SerDe 是Serializer 和 Deserializer 的简称。它是 Hive用来处理记录并且...
2019-03-22 19:18:56 1537
原创 Apache Hive 自定义函数UDF函数
1.Hive 函数分类进一条数据出一条数据:(UDF 用户自定义函数) substr() from_unixtime()等进多条数据出一条数据:(UDAF 用户定义聚合函数) sum,count,max,min等进一条数据出多条数据:(UDTF 用户定义表函数) explode2.使用java开发UDF函数实现求某一个字符串中某子串出现的次数1)准备...
2019-03-22 19:10:14 293
原创 Apache Hive 多字节分割数据文件导入
由于hive默认使用的SerDe(序列化与反序列化)接口类是org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,而这个接口是不支持多字符分割的,所以对需要多分隔符数据文件进行导入时,即便指定多字节分隔符,出来的数据一般都是有问题的。解决方案是使用: org.apache.hadoop.hive.serde2.RegexSeDe接口,即使用正则...
2019-03-22 18:37:17 424
原创 Apache Hive 垃圾回收
由于hive对hive表的管理实质上就是管理hdfs目录,因此相对来说垃圾回收相对来说比较简单1.hive 外部表的删除由于外部表不由hive管理,因此,在hive里面删除外部表,删除的仅仅是hive的元数据,原始数据还存在hdfs上,所以对于外部表而言,只需要重建一下表,然后重新装载一下数据即可。2.hive 内部表的删除由于hive内部表的管理者是hive,因此,hive的内部表删...
2019-03-22 18:20:18 959
原创 Apache Hive 远程连接
主要使用beeline工具连接到远程hive服务端,这里的beeline所在节点不必是hadoop集群节点1.上传hive的安装包并解压beeline所在的客户端节点只需要一个hive安装包即可(这里上传到/opt)sudo tar -zxvf apache-hive-2.3.4-bin.tar.gz cd apache-hive-2.3.4-bin/bin2.修改hadoop集群...
2019-03-22 18:02:35 314
原创 Apache Hive 常用内置函数及其使用
1.内置函数:(270+)show functions; -- 显示hive内置函数列表2.查看hive函数的用法(描述信息)desc function 函数名;desc function sum;desc function extended 函数名;desc function extended sum; -- 可以查看使用案例3.常用内置函数1)字符串操作函数split(...
2019-03-21 19:49:29 270
原创 Apache Hive 数据类型
1.原子数据类型tinyintsmallintintbigintbooleanfloatdoublestring -- 双引号和单引号都可以timestamp2.复杂数据类型1)array 数组类型array:用于存放相同数据类型的一组数据,使用该类型时一定要使用泛型 <泛型> array<string>使用时需要指定分...
2019-03-21 19:45:37 149
原创 Apache Hive order by与sort by以及distribute by 配合sort by 和cluster by的区别
1.order by与sort by以及distribute by 配合sort by 和cluster by的区别先记结论:order by: 全局排序,全局有序,无论数据量多大,只会有一个reducetask运行,所以当数据量比较大的时候,性能会大打折扣。(手动设置reducetask对其没有影响)sort by: 会根据数据量自动调整reducetask的个数的(hive2.x默认ma...
2019-03-21 08:48:22 471
原创 Apache Hive where|having以及group by使用注意事项
1.where与having使用注意事项两个与聚合函数使用时where 执行是在聚合函数之前,having是在聚合函数之后where是对聚合之前的数据做过滤的,having则是对聚合之后的数据(聚合结果)的过滤的。2.group by 分组① group by 执行顺序是在select 之前的。因此group by中不能使用select 后面字段的别名的。② 有group by 进行分...
2019-03-20 15:00:10 2525
原创 Apache Hive join操作
hive中对in 与 exists的查询比较弱,hive2中支持,但是性能比较差,hive1中不支持注意:hive中支持等值连接,但是不支持非等值连接hive 支持多关联键的连接的,但是仅仅支持and的,不支持or的。hive支持多表joinhive join分类:内连接,外连接和半连接1.内连接 inner join|join求两表交集select * fr...
2019-03-20 14:49:54 115
原创 Apache Hive 数据导出
1.单重导出local 表示导出到本地,否则导出到hdfsinsert overwrite [local] directory '目录路径' select xxxx from 表名 [where xxx];2.多重导出对表扫描一次,导出多个结果from xxxinsert overwrite local directory '' select * where age =1...
2019-03-20 14:32:06 102
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人