IMezZ-CSDN博客

原创 Linux rpm安装 telnet

注意：如有则修改,第一次修改,此文件若不存在,可自己vim创建。修改 disable = yes 为 disable = no。默认是不开启服务,修改文件/etc/xinetd.d/telnet来开启服务。安装顺序：xinetd–>telnet–>telnet-server。

2023-03-01 16:45:39 2787 1

原创 Flink-从kafka读取数据，输出到mysql

This is the most wonderful day of my life,because I'm here with you now.

2022-10-28 18:50:28 1298

原创 Flink-从文件读取数据，输出到mysql

1、准备工作文件准备，参考上篇文章：Flink-从文件读取数据，输出到文件_IMezZ的博客-CSDN博客可以看到resource目录下生成了一个result.txt文件，文件内容是按代码逻辑处理过的结果。文件准备后，开始读取文件，将处理后数据输出到目标文件中。在项目的resource目录下创建一个words文件。

2022-10-27 17:25:02 1303

原创 Flink-从文件读取数据，输出到文件

可以看到resource目录下生成了一个result.txt文件，文件内容是按代码逻辑处理过的结果。文件准备后，开始读取文件，将处理后数据输出到目标文件中。在项目的resource目录下创建一个words文件。

2022-10-27 17:07:52 1561

原创 Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnExc

缺少flink-shaded-hadoop-2-uber-2.8.3-10.0 jar包。在maven库下载jar包放在flink lib目录即可。

2022-10-27 16:24:41 625

原创 Hive增加列，调整列顺序，属性名等操作

hive添加字段到指定位置先添加字段到最后位置再移动到指定位置

2022-10-24 16:02:39 6246

转载内存free和available区别

内存free和available区别

2022-10-14 13:47:55 9858 1

原创 Executor heartbeat timed out after 158816 ms

Executor heartbeat timed out after 158816 ms

2022-09-13 19:04:54 1048

一、什么是主题？二、什么是主题域？三、如何划分主题域？1、按照系统划分2、按业务过程划分3、按需求方划分4、按部门划分 5、按功能或应用划分6、按行业经验划分一、什么是主题？主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念，每一个主题基本对应一个宏观的分析领域。主题域是业务对象高度概括的概念层次归类，目的是便于数据的管理和应用。二、什么是主题域？主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点，将这些数据主题划分到不同的主题域(也说是对某个主题进行分析后确

2022-06-29 18:24:14 2376 1

原创 hive之Map Join使用方法

介绍MAPJION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。如上图中的流程，首先Task A在客户端本地执行，负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到DistributeCache中。接下来的Task B任务是一个没有Reduce的MapReduce，启动MapTasks扫描大表...

2022-04-08 15:45:36 10199 3

原创 hive之left semi join（左半连接）使用方法

目录一、建表数据准备二、语法三、left semi join例子四、left semi join、join、left join的区别1、left semi join2、left join3、join结语一、建表数据准备参考hive之full outer join（全连接）使用方法_IMezZ的博客-CSDN博客目录介绍语法例子创建顾客表：customers创建订单表：ordersfull outer join语句 left join + union + right

2022-04-07 17:24:56 19351

原创 hive之full outer join（全连接）使用方法

目录介绍语法例子创建顾客表：customers创建订单表：ordersfull outer join语句 left join + union + right join语句介绍full outer join结合了 LEFT JOIN 和 RIGHT JOIN 的结果，并使用NULL值作为两侧缺失匹配结果。语法SELECT table1.column_name(s),table2.column_name(s) FROM table1 ..

2022-04-07 16:23:23 31822

转载 Hive优化—skew join优化原理详解

目录优化原理适用范围测试验证优化原理JOIN中倾斜键的处理思路最早是在HIVE-964中提出的，整体思路是使用独立的作业和mapjoin来处理倾斜的键。用以处理倾斜键的MR作业数是表的数量减一(we can stream the last table, so big keys in the last table will not be a problem)在执行JOIN的过程中，会将一个表中的大key（也就是倾斜的那部分数据，判断是否倾斜由配置项hive.skewjoin.key

2022-04-02 16:16:18 1031

原创 kafka安装以及与spark集成与测试

一、Zookeeper安装参考上篇写的zookeeper安装文章。ZooKeeper安装与配置_IMezZ的博客-CSDN博客一、ZooKeeper安装和配置1、zookeeper下载ZooKeeper官网https://zookeeper.apache.org/本文用的是zookeeper-3.4.8.tar.gz，下载 zookeeper-3.4.8.tar.gz。上传至主机/opt目录下2、安装和配置安装模式有单机和集群两种，这是采用集群模式，单机模式这里不再赘述。解压tar -zxvf zo

2022-03-30 18:18:17 2078

原创 ZooKeeper安装与配置

一、ZooKeeper安装和配置1、zookeeper下载ZooKeeper官网https://zookeeper.apache.org/本文用的是zookeeper-3.4.8.tar.gz，下载 zookeeper-3.4.8.tar.gz。上传至主机/opt目录下2、安装和配置安装模式有单机和集群两种，这是采用集群模式，单机模式这里不再赘述。解压 tar -zxvf zookeeper-3.4.8.tar.gz 目录重命名 mv zookeeper-3.4.8

2022-03-30 17:26:19 8074

原创 Scala数组

数组的第一个元素索引为0，最后一个元素的索引为元素总数减1object ArrayTest { def main(args: Array[String]) { //调用方法 singleArray multiArray } //数组 def singleArray() { var myList = Array(1.9, 2.9, 3.4, 3.5) println("数组：" +

2022-03-03 17:49:57 300

原创 hadoop 回收站

Hadoop回收站trash，默认是关闭的。开启回收站功能，可以将删除的文件在不超时的情况下，恢复原数据，起到防止误删除、备份等作用。启用回收站在core-site.xml中配置如下参数，建议设置：fs.trash.interval 1440 minutes（1天），fs.trash.checkpoint.interval120 minutes（2小时）<property><name>fs.trash.interval</name>&...

2022-03-02 16:51:37 2548

原创 Scala Iterator（迭代器）

Scala Iterator（迭代器）不是一个集合，它是一种用于访问集合的方法。迭代器 it 的两个基本操作是next和hasNext。object IteratorTest { def main(args: Array[String]) { val ita = Iterator(20,40,2,50,69,90) //调用 it.next() 会返回迭代器的下一个元素，并且更新迭代器的状态。 //调用 it.h...

2022-03-01 18:01:32 397

原创 Scala map集合与元组

1、Map(映射)是一种可迭代的键值对（key/value）结构。所有的值都可以通过键来获取。Map 中的键都是唯一的。2、与列表一样，元组也是不可变的，但与列表不同的是元组可以包含不同类型的元素。object CollectionTest { def main(args: Array[String]) { mapTest //tupleTest } //map集合 def mapTest(){ //1、不可变m

2022-02-28 17:46:58 340

原创 Scala 方法与函数

Scala 有方法与函数，二者在语义上的区别很小。Scala 方法是类的一部分，而函数是一个对象可以赋值给一个变量。换句话来说在类中定义的函数即是方法。Scala 中的方法跟 Java 的类似，方法是组成类的一部分。Scala 中的函数则是一个完整的对象，Scala 中的函数其实就是继承了 Trait 的类的对象。Scala 中使用 val 语句可以定义函数，def 语句定义方法。eg：object deftest { def main(args: Array[String]):

2022-02-27 22:28:08 309

原创通过yarn命令查看日志

通过yarn命令(用户要和提交任务的用户一致）1）yarn application -list -appStates ALL（这个不显示时间信息）显示所有任务。2）yarn logs -applicationId application_1493700892407_0007查看任务日志。

2022-02-26 22:44:08 5252

原创 hive Date 转化大全

Input column name: dt (String).Replace dt with your column name. Input Format Code Output Format ddMMyyyy to_date(from_unixtime(UNIX_TIMESTAMP(dt,’ddMMyyyy’))) yyyy-MM-dd dd-MM-yyyy

2022-02-25 16:20:42 198

原创 SparkSql编程之《DataFrame转换操作》

一、数据准备，json文件项目处新建people.json文件创建DataFrameval df = spark.read.json("input/people.json")二、DataFrame上的转化操作1、where操作df.where("name='Andy'").show()|age|name|+---+----+| 30|Andy|2、查询操作（1）select 获取指定字段值df.select("name","age").show().

2022-02-24 17:56:29 680

原创 SparkSql编程之《DataFrame行动操作》

一、数据准备，json文件项目处新建people.json文件{"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19}创建DataFrameval df = spark.read.json("input/people.json")二、DataFrame上的行动操作行动操作有：show、collect、collectAsList、describe、first、 head、 take、 t..

2022-02-23 17:30:24 308

原创 SparkSql编程之《SparkSession和DataFrame》

一、SparkSessionSpark SQL模块的编程主入口点是SparkSession，SparkSession对象不仅为用户提供了创建DataFrame对象、读取外部数据源并转化为DataFrame对象以及执行sql查询的API，还负责记录着用户希望Spark应用如何在Spark集群运行的控制、调优参数，是Spark SQL的上下文环境，是运行的基础。1、创建SparkSession会话 //创建sparkSession val spark = S...

2022-02-22 14:22:39 1628

原创 hiveserver2运行异常：GC overhead limit exceeded

记一次hiveserver2服务运行异常问题。报错信息：java.lang.OutOfMemoryError: GC overhead limit exceeded解决方法：修改hive配置文件hive-env.sh。将原来注释的替换成如下配置# Hive Client memory usage can be an issue if a large number of clients# are running at the same time. The flags below h

2022-02-21 14:31:37 2090

原创 saprk sql查询mysql的两种方法

saprk sql查询mysql的两种方法：package com.spark.testimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.SaveModeimport java.util.Propertiesimport java.util.Mapimport java.util.HashMapobject MysqlDemo { def main(args: Array[String]): Uni

2022-02-15 18:47:38 1418

原创 spark sql 连接mysql

一、场景描述用spark sql计算业务逻辑，将计算结果插入hive，并将计算任务成功是否的日志插入到mysql。二、报错信息spark sql计算业务逻辑，将计算结果插入hive，这步运算成功。计算任务成功是否的日志插入到mysql这步运行失败。报错信息如下：三、解决问题添加加载驱动代码：Class.forName("com.mysql.cj.jdbc.Driver")四、代码展示object SqlUtils { /** * 获取连接 */...

2022-02-14 11:49:25 1064

原创 org.apache.atlas.AtlasException: Failed to load application properties

想用Apache Atlas进行元数据管理，atlas搭建完成且启动成功，但是在将hive元数据导入atlas时报如下错误，从网上找了解决方法都没有解决问题。有哪位大侠知道怎么解决，指导一下，万分感谢！2022-02-07 14:39:08,912 ERROR - [main:] ~ Import failed (HiveMetaStoreBridge:179)org.apache.atlas.AtlasException: Failed to load application properties

2022-02-07 15:09:58 2685 12

原创北京医保不用选也能报销的定点医院包括：A类定点医院、专科医院和中医医院

39家A类定点医院　　1.中国医学科学院北京协和医院　　2.首都医科大学附属北京同仁医院　　3.首都医科大学宣武医院　　4.首都医科大学附属北京友谊医院　　5.北京大学第一医院　　6.北京大学人民医院　　7.北京大学第三医院　　8.北京积水潭医院　　9.中国中医科学院广安门医院　　10.首都医科大学附属北京朝阳医院　　11.中日友好医院　　12.北京大学首钢医院　　13.首都医科大学附属北京中医医院　　14.首都医科大学附属北京天坛医院　　15.北

2022-01-29 11:50:36 3313

原创 hcatalog配置以及sqoop集成使用

hcatalog配置以及sqoop集成使用1、环境变量配置vim ~/.bashrcexport HCAT_HOME=/usr/hive/hcatalogexport PATH=$PATH:$HCAT_HOME/bin2、查看hive版本下载对应的hive-hcatalog放在hcatalog目录下查看hive版本hive --versionHive 2.3.6我的hive版本是2.3.6，则在maven库下载对应的jar包https://mvnrepository

2022-01-13 17:19:25 3643 1

原创 hadoop集群一台机器多块磁盘存储不均问题

在hdfs-site.xml 配置文件按下面三个步骤添加参数。添加完同步至datanode节点。1、数据存储磁盘参数设置多个磁盘目录剩余磁盘空间大的在前面 <property> <name>dfs.data.dir</name> <value>/data1/dfs/dn,/mnt1/dfs/dn1,/mnt2/dfs/dn</value></property>2、datanode多存储

2022-01-05 17:26:57 1871 1

原创 namenode启动报错：OutOfMemoryError:Java heap space

1、发现问题现象：重启hadoop集群，namenode报错无法启动。报错：2、分析问题一看报错有“OutOfMemoryError:Java heap space”字眼，应该是JVM相关参数的问题，于时就去看hadoop-env.sh配置文件。配置文件设置如下：export HADOOP_NAMENODE_OPTS="-Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dh...

2021-11-12 14:51:53 2091

原创 file:/usr/local/hive/iotmp/89de7dfe-8f26-4a6e-87b4-bacd16c2b2c8/hive_2021-11-05_05-06-07_555_3392062

1、发现问题场景：当多个sql脚本任务同时在运行的时候经常报如下错误。具体报错：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. File file:/usr/local/hive/iotmp/89de7dfe-8f26-4a6e-87b4-bacd16c2b2c8/hive_2021-11-05_05-06-07_555_3392062193706637485-1/-

2021-11-12 11:58:15 1584

原创 SQLException in nextKeyValueCaused by: java.sql.SQLException: HOUR_OF_DAY: 2 -＞ 3

在使用sqoop把数据从mysql导到hive时，报如下错误：报错原因：两个主机系统时区不一致导致的解决办法：在数据库连接串加上&serverTimezone=Asia/Shanghai--connect jdbc:mysql:// ${hostname}:3306/${db_name}?serverTimezone=Asia/Shanghai \加上之后再次运行问题解决。...

2021-10-27 18:04:40 844

原创 Error executing statement: java.sql.SQLNonTransientConnectionException: Too many connections

使用Sqoop从mysql导数到hive报错，如下：Error executing statement: java.sql.SQLNonTransientConnectionException: Too many connections分析报错发现是mysql大量的连接没释放，造成连接数满了，无法响应新连接。1、查看mysql连接数：show VARIABLES like 'max_connections';2、查看连接会话存活时间周期show VARIABLES li.

2021-10-27 18:00:32 2325

原创 IDEA中使用Spark SQL远程连接Hive

记录一下spark sql远程连接hive，进行sql操作的过程。1、把远程端的hive-site.xml文件放在idea的resources目录下注意这里要改成远程要访问的ip地址2、引入mysql驱动包，因为spark sql其实是访问的是存储hive元数据的库，我的是mysqlcrt+alt+shift+s打开导包界面，点击“+” > Library > Java 选择mysql驱动包如果没有mysql驱动包会报这样的错误：java.lang.Runti

2021-08-30 21:15:37 3351

原创 spark启动报错：failed : nice -n 0 /apps/spark-yarn/bin/spark-class org.apache.spark.deploy.worker.Worker

截取字符串(1)、##和%%的使用假设我们定义了一个变量为：file=/dir1/dir2/dir3/my.file.txt可以用${ }分别替换得到不同的值：${file#*/}：删掉第一个/及其左边的字符串：dir1/dir2/dir3/my.file.txt${file##*/}：删掉最后一个/及其左边的字符串：my.file.txt${file#*.}：删掉第一个.及其左边的字符串：file.txt${file##*.}：删掉最后一个.及其左边的字符串：txt${f

2021-08-19 14:50:45 418

转载 OLTP与OLAP

1.OLTP与OLAP的基本概念与主要区别1.1 OLTP是什么OLTP的全称是On-line Transaction Processing，中文名称是联机事务处理。其特点是会有高并发且数据量级不大的查询，是主要用于管理事务（transaction-oriented)的系统。此类系统专注于short on-line-tansactions 如INSERT, UPDATE, DELETE操作。通常存在此类系统中的数据都是以实体对象模型来存储数据，并满足3NF(数据库第三范式)。1.2 OLAP是什

2021-03-10 17:24:54 538

转载数据仓库系列之维度建模

上一篇文章我已经简单介绍了数据分析中为啥要建立数据仓库，从本周开始我们开始一起学习数据仓库。学习数据仓库，你一定会了解到两个人：数据仓库之父比尔·恩门（Bill Inmon）和数据仓库权威专家Ralph Kimball。Inmon和Kimball两种DW架构支撑了数据仓库以及商业智能近二十年的发展，其中Inmon主张自上而下的架构，不同的OLTP数据集中到面向主题、集成的、不易失的和时间变化的结构中，用于以后的分析;且数据可以通过下钻到最细层，或者上卷到汇总层;数据集市应该是数据仓库的子集;每个数据集市是针

2021-03-10 17:10:44 189

空空如也

空空如也