自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ImezZ

不积跬步无以至千里

  • 博客(197)
  • 收藏
  • 关注

原创 Linux rpm安装 telnet

注意:如有则修改,第一次修改,此文件若不存在,可自己vim创建。修改 disable = yes 为 disable = no。默认是不开启服务,修改文件/etc/xinetd.d/telnet来开启服务。安装顺序:xinetd–>telnet–>telnet-server。

2023-03-01 16:45:39 2787 1

原创 Flink-从kafka读取数据,输出到mysql

This is the most wonderful day of my life,because I'm here with you now.

2022-10-28 18:50:28 1298

原创 Flink-从文件读取数据,输出到mysql

1、准备工作文件准备,参考上篇文章:Flink-从文件读取数据,输出到文件_IMezZ的博客-CSDN博客可以看到resource目录下生成了一个result.txt文件,文件内容是按代码逻辑处理过的结果。文件准备后,开始读取文件,将处理后数据输出到目标文件中。在项目的resource目录下创建一个words文件。

2022-10-27 17:25:02 1303

原创 Flink-从文件读取数据,输出到文件

可以看到resource目录下生成了一个result.txt文件,文件内容是按代码逻辑处理过的结果。文件准备后,开始读取文件,将处理后数据输出到目标文件中。在项目的resource目录下创建一个words文件。

2022-10-27 17:07:52 1561

原创 Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnExc

缺少flink-shaded-hadoop-2-uber-2.8.3-10.0 jar包。在maven库下载jar包放在flink lib目录即可。

2022-10-27 16:24:41 625

原创 Hive增加列,调整列顺序,属性名等操作

hive添加字段到指定位置先添加字段到最后位置再移动到指定位置

2022-10-24 16:02:39 6246

转载 内存free和available区别

内存free和available区别

2022-10-14 13:47:55 9858 1

原创 Executor heartbeat timed out after 158816 ms

Executor heartbeat timed out after 158816 ms

2022-09-13 19:04:54 1048

转载 数据仓库建设之确定主题域

一、什么是主题?二、什么是主题域?三、如何划分主题域?1、按照系统划分2、按业务过程划分3、 按需求方划分4、 按部门划分 5、按功能或应用划分6、按行业经验划分一、什么是主题?主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。主题域是业务对象高度概括的概念层次归类,目的是便于数据的管理和应用。二、什么是主题域?主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域(也说是对某个主题进行分析后确

2022-06-29 18:24:14 2376 1

原创 hive之Map Join使用方法

介绍MAPJION会把小表全部加载到内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map端是进行了join操作,省去了reduce运行的时间,算是hive中的一种优化。如上图中的流程,首先Task A在客户端本地执行,负责扫描小表b的数据,将其转换成一个HashTable的数据结构,并写入本地的文件中,之后将该文件加载到DistributeCache中。接下来的Task B任务是一个没有Reduce的MapReduce,启动MapTasks扫描大表...

2022-04-08 15:45:36 10199 3

原创 hive之left semi join(左半连接)使用方法

目录一、建表数据准备二、语法三、left semi join例子四、left semi join、join、left join的区别1、left semi join2、left join3、join结语一、建表数据准备参考hive之full outer join(全连接)使用方法_IMezZ的博客-CSDN博客目录介绍语法例子创建顾客表:customers创建订单表:ordersfull outer join语句 left join + union + right

2022-04-07 17:24:56 19351

原创 hive之full outer join(全连接)使用方法

目录介绍语法例子创建顾客表:customers创建订单表:ordersfull outer join语句 left join + union + right join语句介绍full outer join结合了 LEFT JOIN 和 RIGHT JOIN 的结果,并使用NULL值作为两侧缺失匹配结果。语法SELECT table1.column_name(s),table2.column_name(s) FROM table1 ..

2022-04-07 16:23:23 31822

转载 Hive优化—skew join优化原理详解

目录优化原理适用范围测试验证优化原理JOIN中倾斜键的处理思路最早是在HIVE-964中提出的,整体思路是使用独立的作业和mapjoin来处理倾斜的键。用以处理倾斜键的MR作业数是表的数量减一(we can stream the last table, so big keys in the last table will not be a problem)在执行JOIN的过程中,会将一个表中的大key(也就是倾斜的那部分数据,判断是否倾斜由配置项hive.skewjoin.key

2022-04-02 16:16:18 1031

原创 kafka安装以及与spark集成与测试

一、Zookeeper安装参考上篇写的zookeeper安装文章。ZooKeeper安装与配置_IMezZ的博客-CSDN博客一、ZooKeeper安装和配置1、zookeeper下载ZooKeeper官网https://zookeeper.apache.org/本文用的是zookeeper-3.4.8.tar.gz,下载 zookeeper-3.4.8.tar.gz。上传至主机/opt目录下2、安装和配置安装模式有单机和集群两种,这是采用集群模式,单机模式这里不再赘述。解压tar -zxvf zo

2022-03-30 18:18:17 2078

原创 ZooKeeper安装与配置

一、ZooKeeper安装和配置1、zookeeper下载ZooKeeper官网https://zookeeper.apache.org/本文用的是zookeeper-3.4.8.tar.gz,下载 zookeeper-3.4.8.tar.gz。上传至主机/opt目录下2、安装和配置安装模式有单机和集群两种,这是采用集群模式,单机模式这里不再赘述。 解压 tar -zxvf zookeeper-3.4.8.tar.gz 目录重命名 mv zookeeper-3.4.8

2022-03-30 17:26:19 8074

原创 Scala数组

数组的第一个元素索引为0,最后一个元素的索引为元素总数减1object ArrayTest { def main(args: Array[String]) { //调用方法 singleArray multiArray } //数组 def singleArray() { var myList = Array(1.9, 2.9, 3.4, 3.5) println("数组:" +

2022-03-03 17:49:57 300

原创 hadoop 回收站

Hadoop回收站trash,默认是关闭的。开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。启用回收站在core-site.xml中配置如下参数,建议设置:fs.trash.interval 1440 minutes(1天),fs.trash.checkpoint.interval120 minutes(2小时)<property><name>fs.trash.interval</name>&...

2022-03-02 16:51:37 2548

原创 Scala Iterator(迭代器)

Scala Iterator(迭代器)不是一个集合,它是一种用于访问集合的方法。迭代器 it 的两个基本操作是next和hasNext。object IteratorTest { def main(args: Array[String]) { val ita = Iterator(20,40,2,50,69,90) //调用 it.next() 会返回迭代器的下一个元素,并且更新迭代器的状态。 //调用 it.h...

2022-03-01 18:01:32 397

原创 Scala map集合与元组

1、Map(映射)是一种可迭代的键值对(key/value)结构。所有的值都可以通过键来获取。Map 中的键都是唯一的。2、与列表一样,元组也是不可变的,但与列表不同的是元组可以包含不同类型的元素。object CollectionTest { def main(args: Array[String]) { mapTest //tupleTest } //map集合 def mapTest(){ //1、不可变m

2022-02-28 17:46:58 340

原创 Scala 方法与函数

Scala 有方法与函数,二者在语义上的区别很小。Scala 方法是类的一部分,而函数是一个对象可以赋值给一个变量。换句话来说在类中定义的函数即是方法。Scala 中的方法跟 Java 的类似,方法是组成类的一部分。Scala 中的函数则是一个完整的对象,Scala 中的函数其实就是继承了 Trait 的类的对象。Scala 中使用 val 语句可以定义函数,def 语句定义方法。eg:object deftest { def main(args: Array[String]):

2022-02-27 22:28:08 309

原创 通过yarn命令查看日志

通过yarn命令(用户要和提交任务的用户一致)1)yarn application -list -appStates ALL(这个不显示时间信息)显示所有任务。2)yarn logs -applicationId application_1493700892407_0007查看任务日志。

2022-02-26 22:44:08 5252

原创 hive Date 转化大全

Input column name: dt (String).Replace dt with your column name. Input Format Code Output Format ddMMyyyy to_date(from_unixtime(UNIX_TIMESTAMP(dt,’ddMMyyyy’))) yyyy-MM-dd dd-MM-yyyy

2022-02-25 16:20:42 198

原创 SparkSql编程之《DataFrame转换操作》

一、数据准备,json文件项目处新建people.json文件创建DataFrameval df = spark.read.json("input/people.json")二、DataFrame上的转化操作1、where操作df.where("name='Andy'").show()|age|name|+---+----+| 30|Andy|2、查询操作(1)select 获取指定字段值df.select("name","age").show().

2022-02-24 17:56:29 680

原创 SparkSql编程之《DataFrame行动操作》

一、数据准备,json文件项目处新建people.json文件{"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19}创建DataFrameval df = spark.read.json("input/people.json")二、DataFrame上的行动操作行动操作有:show、collect、collectAsList、describe、first、 head、 take、 t..

2022-02-23 17:30:24 308

原创 SparkSql编程之《SparkSession和DataFrame》

一、SparkSessionSpark SQL模块的编程主入口点是SparkSession,SparkSession对象不仅为用户提供了创建DataFrame对象、 读取外部数据源并转化为DataFrame对象以及执行sql查询的API, 还负责记录着用户希望Spark应用如何在Spark集群运行的控制、 调优参数, 是Spark SQL的上下文环境, 是运行的基础。1、创建SparkSession会话 //创建sparkSession val spark = S...

2022-02-22 14:22:39 1628

原创 hiveserver2运行异常:GC overhead limit exceeded

记一次hiveserver2服务运行异常问题。报错信息:java.lang.OutOfMemoryError: GC overhead limit exceeded解决方法:修改hive配置文件hive-env.sh。将原来注释的替换成如下配置# Hive Client memory usage can be an issue if a large number of clients# are running at the same time. The flags below h

2022-02-21 14:31:37 2090

原创 saprk sql查询mysql的两种方法

saprk sql查询mysql的两种方法:package com.spark.testimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.SaveModeimport java.util.Propertiesimport java.util.Mapimport java.util.HashMapobject MysqlDemo { def main(args: Array[String]): Uni

2022-02-15 18:47:38 1418

原创 spark sql 连接mysql

一、场景描述用spark sql计算业务逻辑,将计算结果插入hive,并将计算任务成功是否的日志插入到mysql。二、报错信息spark sql计算业务逻辑,将计算结果插入hive,这步运算成功。计算任务成功是否的日志插入到mysql这步运行失败。报错信息如下:三、解决问题添加加载驱动代码:Class.forName("com.mysql.cj.jdbc.Driver")四、代码展示object SqlUtils { /** * 获取连接 */...

2022-02-14 11:49:25 1064

原创 org.apache.atlas.AtlasException: Failed to load application properties

想用Apache Atlas进行元数据管理,atlas搭建完成且启动成功,但是在将hive元数据导入atlas时报如下错误,从网上找了解决方法都没有解决问题。有哪位大侠知道怎么解决,指导一下,万分感谢!2022-02-07 14:39:08,912 ERROR - [main:] ~ Import failed (HiveMetaStoreBridge:179)org.apache.atlas.AtlasException: Failed to load application properties

2022-02-07 15:09:58 2685 12

原创 北京医保不用选也能报销的定点医院包括:A类定点医院、专科医院和中医医院

39家A类定点医院  1.中国医学科学院北京协和医院  2.首都医科大学附属北京同仁医院  3.首都医科大学宣武医院  4.首都医科大学附属北京友谊医院  5.北京大学第一医院  6.北京大学人民医院  7.北京大学第三医院  8.北京积水潭医院  9.中国中医科学院广安门医院  10.首都医科大学附属北京朝阳医院  11.中日友好医院  12.北京大学首钢医院  13.首都医科大学附属北京中医医院  14.首都医科大学附属北京天坛医院  15.北

2022-01-29 11:50:36 3313

原创 hcatalog配置以及sqoop集成使用

hcatalog配置以及sqoop集成使用1、环境变量配置vim ~/.bashrcexport HCAT_HOME=/usr/hive/hcatalogexport PATH=$PATH:$HCAT_HOME/bin2、查看hive版本下载对应的hive-hcatalog放在hcatalog目录下查看hive版本hive --versionHive 2.3.6我的hive版本是2.3.6,则在maven库下载对应的jar包https://mvnrepository

2022-01-13 17:19:25 3643 1

原创 hadoop集群一台机器多块磁盘存储不均问题

在hdfs-site.xml 配置文件按下面三个步骤添加参数。添加完同步至datanode节点。1、数据存储磁盘参数设置多个磁盘目录剩余磁盘空间大的在前面 <property> <name>dfs.data.dir</name> <value>/data1/dfs/dn,/mnt1/dfs/dn1,/mnt2/dfs/dn</value></property>2、datanode多存储

2022-01-05 17:26:57 1871 1

原创 namenode启动报错:OutOfMemoryError:Java heap space

1、发现问题现象:重启hadoop集群,namenode报错无法启动。报错:2、分析问题一看报错有“OutOfMemoryError:Java heap space”字眼,应该是JVM相关参数的问题,于时就去看hadoop-env.sh配置文件。配置文件设置如下:export HADOOP_NAMENODE_OPTS="-Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dh...

2021-11-12 14:51:53 2091

原创 file:/usr/local/hive/iotmp/89de7dfe-8f26-4a6e-87b4-bacd16c2b2c8/hive_2021-11-05_05-06-07_555_3392062

1、发现问题场景:当多个sql脚本任务同时在运行的时候经常报如下错误。具体报错:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. File file:/usr/local/hive/iotmp/89de7dfe-8f26-4a6e-87b4-bacd16c2b2c8/hive_2021-11-05_05-06-07_555_3392062193706637485-1/-

2021-11-12 11:58:15 1584

原创 SQLException in nextKeyValueCaused by: java.sql.SQLException: HOUR_OF_DAY: 2 -> 3

在使用sqoop把数据从mysql导到hive时,报如下错误:报错原因:两个主机系统时区不一致导致的解决办法:在数据库连接串加上&serverTimezone=Asia/Shanghai--connect jdbc:mysql:// ${hostname}:3306/${db_name}?serverTimezone=Asia/Shanghai \加上之后再次运行问题解决。...

2021-10-27 18:04:40 844

原创 Error executing statement: java.sql.SQLNonTransientConnectionException: Too many connections

使用Sqoop从mysql导数到hive报错,如下:Error executing statement: java.sql.SQLNonTransientConnectionException: Too many connections分析报错发现是mysql大量的连接没释放,造成连接数满了,无法响应新连接。1、查看mysql连接数:show VARIABLES like 'max_connections';2、查看 连接会话 存活时间周期show VARIABLES li.

2021-10-27 18:00:32 2325

原创 IDEA中使用Spark SQL远程连接Hive

记录一下spark sql远程连接hive,进行sql操作的过程。1、把远程端的hive-site.xml文件放在idea的resources目录下注意这里要改成远程要访问的ip地址2、引入mysql驱动包,因为spark sql其实是访问的是存储hive元数据的库,我的是mysqlcrt+alt+shift+s打开导包界面,点击“+” > Library > Java 选择mysql驱动包如果没有mysql驱动包会报这样的错误:java.lang.Runti

2021-08-30 21:15:37 3351

原创 spark启动报错:failed : nice -n 0 /apps/spark-yarn/bin/spark-class org.apache.spark.deploy.worker.Worker

截取字符串(1)、##和%%的使用假设我们定义了一个变量为:file=/dir1/dir2/dir3/my.file.txt可以用${ }分别替换得到不同的值:${file#*/}:删掉第一个/及其左边的字符串:dir1/dir2/dir3/my.file.txt${file##*/}:删掉最后一个/及其左边的字符串:my.file.txt${file#*.}:删掉第一个.及其左边的字符串:file.txt${file##*.}:删掉最后一个.及其左边的字符串:txt${f

2021-08-19 14:50:45 418

转载 OLTP与OLAP

1.OLTP与OLAP的基本概念与主要区别1.1 OLTP是什么OLTP的全称是On-line Transaction Processing,中文名称是联机事务处理。其特点是会有高并发且数据量级不大的查询,是主要用于管理事务(transaction-oriented)的系统。此类系统专注于short on-line-tansactions 如INSERT, UPDATE, DELETE操作。通常存在此类系统中的数据都是以实体对象模型来存储数据,并满足3NF(数据库第三范式)。1.2 OLAP是什

2021-03-10 17:24:54 538

转载 数据仓库系列之维度建模

上一篇文章我已经简单介绍了数据分析中为啥要建立数据仓库,从本周开始我们开始一起学习数据仓库。学习数据仓库,你一定会了解到两个人:数据仓库之父比尔·恩门(Bill Inmon)和数据仓库权威专家Ralph Kimball。Inmon和Kimball两种DW架构支撑了数据仓库以及商业智能近二十年的发展,其中Inmon主张自上而下的架构,不同的OLTP数据集中到面向主题、集成的、不易失的和时间变化的结构中,用于以后的分析;且数据可以通过下钻到最细层,或者上卷到汇总层;数据集市应该是数据仓库的子集;每个数据集市是针

2021-03-10 17:10:44 189

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除