景明。-CSDN博客

原创 [ 知识点 ] Greenplum常用函数

rgeger

2021-05-26 12:20:13 5082 3

原创 [ Project ] Editing Flume.conf

.confevent_attendees.confevents.confusers.confuser_friends.conftrain.conftest.confevent_attendees.confa1.channels = c1a1.sources = s1a1.sinks = k1a1.sources.s1.type = spooldira1.sources.s1.channels = c1a1.sources.s1.spoolDir = /opt/data/event_atten

2021-05-05 23:30:01 188

原创 [ Project ] Details of Editing Flume.conf

文件编写简单了解一、介绍二、简单要点三、操作步骤简单了解一、介绍这一步主要是利用 flume 采集 HDFS 上的源数据并流向 kafka。二、简单要点 1.Flume 是什么？简单了解一下。 2.为什么 flume 和 Kafka 要联合使用？简单了解一下。 3.建议用谷歌浏览器打开 Flume 官方网站（地址：flume.apache.org），如果需要可在站内将网页转为中文。 4.首先是查看用户指南，找到 Spooling Directory Source

2021-05-05 22:39:29 216 1

原创 [ 实现 ] Hive简单创建UDF

Hive自定义函数一、Hive自定义函数介绍：二、新建一个 Maven-quick start参数修改三、Maven依赖四、操作步骤1.编辑UDF函数代码2.打包3.Hive 添加 jar包4.创建/销毁临时函数5.调用函数一、Hive自定义函数介绍： UDF：一进一出 UDAF：多进一出，例如：count、max、min UDTF：一进多出，例如：explode()二、新建一个 Maven-quick start参数修改三、Maven依赖<!-- hive-exe

2021-04-17 13:49:13 408

原创 [ Project ] Intes Data Explored

数据探索介绍读取数据数据探索POM文件介绍 1. 了解源数据的数据结构、数据类型、字段名等。 2.查看源数据是否有特殊值，例如：空、空格、None 等。 3.查看源数据是否有时间列，查看数据格式（时间戳、格式日期等），查看是否存在特殊字符，例如：Z、T、++ 等。 4.查看字段内是否有重复值，并了解重复字段与其余字段的关系。 5.查看源数据字段在后期数据处理时，是否需要进行行转列、列转行。 6.查看源数据字段内，是否存在多种状态的值，例如：是、否、yes、no、maybe

2021-04-16 17:49:46 87

原创 [ 安装 ] Kafka安装步骤！

Kafka安装步骤一、准备工作二、安装步骤（一）解压（二）配置文件（三）启动服务前言：下文中的IP地址、文件路径、主机名等，请根据您自己的实际情况，进行修改和配置。kafka_2.11-0.11.0.2.gz 下载链接提取码：kr6r一、准备工作安装一台虚拟机（★★★ 虚拟机 CentOS 7的安装步骤 ★★★）启动一台虚拟机，并连接至Xshell、Xftp（连接方法）安装、搭建好JDK、MySQL、Hadoop，并做好免密登录建议在虚拟机里单独创建两

2021-04-15 20:49:35 261

原创 [ 安装 ] HBase安装步骤！

HBase安装步骤一、准备工作二、安装步骤（一）解压（二）HBase配置1.配置hbase-env.sh2.配置hbase-site.xml（三）环境配置（四）启动hbase（五）关闭hbase三、hive + hbase 前言：下文中的IP地址、文件路径、主机名等，请根据您自己的实际情况，进行修改和配置。hbase-1.2.0-cdh5.14.2.tar.gz 下载链接提取码：olrz一、准备工作安装一台虚拟机（★★★ 虚拟机 CentOS 7的安装步骤 ★★★）

2021-04-15 19:50:54 2381

原创 [ 安装 ] Flume安装步骤！

Hive安装步骤一、准备工作二、安装步骤（一）解压（二）配置驱动（三）环境变量配置（四）Jar 包拷贝前言：下文中的IP地址、文件路径、主机名等，请根据您自己的实际情况，进行修改和配置。flume-ng-1.6.0-cdh5.14.2.tar.gz 下载链接提取码：33u0一、准备工作安装一台虚拟机（★★★ 虚拟机 CentOS 7的安装步骤 ★★★）启动一台虚拟机，并连接至Xshell、Xftp（连接方法）安装、搭建好JDK、MySQL、Hadoop，并做

2021-04-13 20:52:15 9300 9

原创 [ 安装 ] Centos7下Python安装步骤！

Python安装步骤一、准备工作二、具体步骤（一）查看版本（二）下载源码包（三）安装（四）建立软连接三、报错及解决方法Python-3.6.5.tgz 下载链接提取码：nsn6Python-3.7.4.tgz 下载链接提取码：qjm3一、准备工作安装一台虚拟机（★★★ 虚拟机 CentOS 7的安装步骤 ★★★）安装JDK环境（★★★ JDK安装步骤 ★★★）启动一台虚拟机，并连接至Xshell、Xftp（连接方法）建议在虚拟机里 opt 文件夹下单

2021-04-13 11:26:26 3024

原创 [ 安装 ] Hadoop安装步骤！

Hadoop安装步骤一、准备工作二、具体步骤（一）解压（二）更改权限（三）Hadoop配置hadoop-env.shcore-site.xmlhdfs-site.xml（四）yarn配置1.配置mapred-site.xml2.配置yarn-site.xml3.启动yarn（五）环境变量配置（六）启动\关闭服务（七）服务启动时输入密码优化（八）HDFS测试前言：下文中的IP地址、文件路径、主机名等，请根据您自己的实际情况，进行修改和配置。Hadoop260下载链接提取码：byfa

2021-04-12 08:51:39 8114

原创 [ 知识点 ] Hive相关报错

Hive相关报错一、Hive不能建表二、未出现“schemaTool completed”的相关报错 schema Tool faild三、Beeline时未出现IP地址一、Hive不能建表有可能会出现以下文字提示：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:An exception was thrown while adding/v

2021-03-12 12:04:23 538

原创 [ 知识点 ] Hive数据倾斜

Hive数据倾斜什么是数据倾斜Hadoop 框架的特性主要表现容易数据倾斜情况产生数据倾斜的原因业务场景空值产生的数据倾斜不同数据类型关联产生数据倾斜大小表关联查询产生数据倾斜什么是数据倾斜由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点。Hadoop 框架的特性不怕数据大，怕的是数据倾斜Jobs 数较多的作业运行效率相对比较低，如子查询比较多sum、count、max、min 等聚合函数，通常不会有数据倾斜问题主要表现任务进度长时间维持在 99% 或者 100% 附近，查

2021-03-02 00:30:04 214

原创 [ 知识点 ] 日志分析如何去除表头

■ 方法一val header = rdd.first()rdd2 = rdd.filter(_ != header)■ 方法二val rdd: RDD[(String, (String, Double))] = sc.textFile(".../***.csv") .mapPartitionsWithIndex((ix, it) => { if (ix == 0) it.drop(1)})■ 方法三val sparkDF = spark.read.format("

2021-02-22 17:01:17 263

原创 [ Practice ] 日志分析：世界新冠疫情数据（RDD）

世界新冠疫情数据分析一、数据描述二、准备工作1.准备数据2.准备环境三、功能需求1.上传数据至HDFS2.使用RDD完成分析3.创建HBase数据表4.创建Hive数据表四、查询工作一、数据描述countrydata.csv 是世界新冠疫情数，数据中记录了从疫情开始至 7 月 2 日，以国家为单位的每日新冠疫情感染人数的数据统计。字段说明如下：中文名称英文名称序列号（列1）id累计确诊人数（列2）confirmedCount当日新增人数（列3）confirme

2021-02-17 17:00:42 1272

原创 [ Practice ] 日志分析：某宝用户行为数据集（RDD）

淘宝用户行为数据集分析一、数据描述二、准备工作1.准备数据2.准备环境3.上传数据至HDFS4.通过 HDFS 命令查询出文档有多少行数据三、数据清洗1.在 Hive 中创建数据库 exam2.在 exam 数据库中创建外部表 userbehavior，并将 HDFS 数据映射到表中3.在 HBase 中创建命名空间 exam，并在命名空间 exam 创建 userbehavior 表，包含一个列簇 info4.在 Hive 中创建外部表 userbehavior_hbase，并映射到 HBase 中5.在

2021-02-16 16:36:55 1214

原创 [ Practice ] 日志分析：MEI团日志（RDD+SQL）

某答题系统日志分析一、数据描述二、准备工作1.准备数据2.准备环境三、功能需求1.上传数据至HDFS2.使用RDD完成分析3.创建HBase数据表4.创建Hive数据表四、查询工作1.使用 ex_exam_record 表中的数据统计每个学员总分、答题的试题数和正确率，并保存到 ex_exam_anlysis 表中。2.使用 ex_exam_record 表中的数据统计每个作对，做错，半对的题目列表。一、数据描述meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU(St

2021-02-13 23:24:49 374 1

原创 [ Practice ] 日志分析：某答题系统（SQL）

某答题系统日志分析一、数据描述二、准备工作1.准备数据2.准备环境三、功能需求1.上传数据至HDFS2.使用 SQL 完成分析3.创建HBase数据表4.创建Hive数据表四、查询工作一、数据描述这是一份来自于某在线考试系统的学员答题批改日志，日志中记录了日志生成时间，题目，难度系数，题目所属的知识点 ID，做题的学生 ID，题目 ID 以及作答批改结果。日志的结构如下：二、准备工作1.准备数据answer_question.log提取码：ezy62.准备环境#启动服务：

2021-02-12 16:20:20 232

原创 [ Practice ] 日志分析：某答题系统（RDD）

某答题系统日志分析一、数据描述二、准备工作1.准备数据2.准备环境三、功能需求1.上传数据至HDFS2.使用RDD完成分析3.创建HBase数据表4.创建Hive数据表一、数据描述这是一份来自于某在线考试系统的学员答题批改日志，日志中记录了日志生成时间，题目，难度系数，题目所属的知识点 ID，做题的学生 ID，题目 ID 以及作答批改结果。日志的结构如下：二、准备工作1.准备数据answer_question.log提取码：ezy62.准备环境#启动服务：start-d

2021-02-12 15:28:57 348

原创 [ 知识点 ] Scala算子

Scala函数按字母顺序分类按使用方法分类前言：下文中a1、a2、a3，均由下方代码定义。var a1 = Array.range(1,10) Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)var a2 = Array("a","b","c","d") Array[String] = Array(a, b, c, d)var a3 = Array(3,5,4,1,2) Array[Int] = Array(3, 5, 4, 1, 2)

2021-01-24 00:40:43 518

原创 [ 实现 ] Spark to MySQL、Hive、HBase

Spark连接各个服务的模板一、模板（一）Spark模板1. SparktoMySql2. SparktoHive3. SparktoHBase一、模板（一）Spark模板1. SparktoMySqlSpark支持MySql，需要添加的依赖<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> &l

2021-01-10 17:38:32 127

原创 [ 实现 ] Java to MySQL、Hive、HBase

Java连接各个服务的模板一、准备工作（一） resource 目录创建（二） log4j.properties 文档二、模板（一）Java模板1. JavatoMySql2. JavatoHiveBaseConfigBaseDaoResultTest3. JavatoHBase（二）Spark模板1. SparktoMySql2. SparktoHive3. SparktoHBaseJava Database Connectivity，简称JDBC，是Java语言中用来规范客户端程序如何来访问数据库的

2021-01-10 15:46:16 167

原创 [ 报错 ] Spark相关报错

Hive基础知识笔记一、Hive内、外部表（一）Hive内、外部表的异同前言：下文都是一些常见的命令及用法，没有过多生僻的、技巧性的东西。一、Hive内、外部表（一）Hive内、外部表的异同 1.内、外部表表结构都由hive控制 2.数据控制权不同（1）内部表由hive控制。（2）外部表不由hive控制（可以是hdfs、hbase）。...

2021-01-06 19:58:16 98

原创 [ 实现 ] Crontab自动化服务

文章目录一、数据库、表的准备工作二、Sqoop命令编辑三、编辑 shell 脚本四、crontab指令五、新增数据通过crontab命令，我们可以按照固定的时间间隔，来执行shell脚本。本次我们利用sqoop数据迁移这个例子，来体现crontab的实现过程。一、数据库、表的准备工作1.新建一个 MySQL 的数据库create database test;2.新建一张 MySQL 表create table cron_test(id int auto_increment primary

2020-12-23 20:05:57 172

原创 [ 报错 ] /etc/profile 不能被重载或报错

如果重新载入文件报错，或者无法载入文件，有可能就是你的profile文件出错，有可能是被你无意间改动了什么内容，建议将原文件内容删除干净后，贴入下方代码。# /etc/profile# System wide environment and startup programs, for login setup# Functions and aliases go in /etc/bashrc# It's NOT a good idea to change this file unless you k

2020-12-18 12:31:20 543

原创 [ 安装 ] Zookeeper安装步骤！

Hive安装步骤一、准备工作二、安装步骤（一）解压前言：下文中的IP地址、文件路径、主机名等，是博主根据自己虚拟机的实际情况进行编辑和配置的，如有出入，请各位看官根据您自己虚拟机的IP地址和相关文件路径等实际情况，进行修改和配置。Zookeeper345下载链接提取码：madd一、准备工作 1.安装一台虚拟机（★★★ 虚拟机 CentOS 7的安装步骤 ★★★）。 2.启动一台虚拟机，并连接至Xshell、Xftp（连接方法）。 3.安装、搭建好JDK、MySQ

2020-12-17 11:56:23 2329

原创 [ 安装 ] Zeppelin安装步骤！

Zeepline安装步骤一、准备工作二、具体步骤（一）解压（二）配置conf 1.配置zeppelin-site.xml 2.配置zeppelin-site.xml（三）启动服务前言：下文中的IP地址、文件路径、主机名等，是博主根据自己虚拟机的实际情况进行编辑和配置的，如有出入，请各位看官根据您自己虚拟机的IP地址和相关文件路径等实际情况，进行修改和配置。Zeppelin082下载链接提取码：cld6一、准备工作 1.安装一台虚拟机（★★★ 虚拟机 CentOS 7

2020-12-14 17:46:41 575

原创 [ 免密 ] 两台虚拟机文件互传！

一、将两台不同的机器做成互相免密 ★★★ 虚拟机免密的操作步骤链接 ★★★二、具体步骤（一）假设虚拟机A需要将文件B传输至虚拟机C 虚拟机A需要输入的命令为：scp srcPath/srcFile USER@HOSTNAME:/PATH 举个例子，如图1。...

2020-12-14 11:43:06 1063

原创 [ 知识点 ] Hive基础知识笔记

题目一、Hive内、外部表有什么区别二、动态、静态分区的区别三、创建表（一）创建内、外部表（二）创建分区表（三）添加分区（四）创建临时表四、常用命令四、Hive内、外部表有什么区别一、Hive内、外部表有什么区别表结构都由hive控制（一）数据控制权不同 1.内部表由hive控制。 2.外部表不由hive控制（可以是hdfs、hbase）。（二）删除表产生的结果不同 1.删除内部表结构和数据一起删除。 2.删除外部表只能删除表结构。二、动态、静态分

2020-12-13 17:46:29 324

原创 [ SHELL ] 利用shell脚本启动服务！

目录一、编写启动服务的脚本文件二、编写停止服务的脚本文件三、编写总开关服务的脚本文件一、编写启动服务的脚本文件 1.先输入命令：vi start.sh，将下方代码复制进去，退出并保存。#!/bin/bashHB="hbase HMaster HRegionServer start-hbase.sh"ZK="zookeeper QuorumPeerMain zkServer.sh_start"HV="hive RunJar RunJar nohup_hive_--service_?>/de

2020-12-11 16:13:17 2504

原创 [ SHELL ] 如何用shell脚本优雅的启动Hive的metastore和hiveserver2！

一、编写脚本文件hive.sh#!/bin/bashHIVE_LOG_DIR=$HIVE_HOME/logsmkdir -p $HIVE_LOG_DIR#检查进程是否运行正常，参数1为进程名，参数2为进程端口function check_process(){ pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print $2}') ppid=$(netstat -nltp 2>/dev/nul

2020-12-11 15:01:42 431

原创 [ 安装 ] VMware虚拟机 CentOS 7的安装步骤及有关操作！

虚拟机安装步骤一、事前准备：1.先将VirtualBox、Xshell、Xftp安装完成。2.在D盘新建一个文件夹：software，并在software文件夹下新建一个文件夹：vm，并在vm文件夹下新建两个文件夹：data（虚拟机数据文件）、env（虚拟机根据文件），在data文件夹下新建一个文件夹：VMware，并在此文件夹下新建：single（单机）、cluster（集群），用来安装虚拟机。3.复制文件夹：single的路径至剪切板。4.我们先建一台名为single的虚拟机。二、具体步骤：

2020-12-11 11:47:59 1623 2

原创 [ 免密 ] 虚拟机免密登录的操作步骤！

虚拟机免密登录的操作步骤一、安装一台虚拟机二、具体步骤一、安装一台虚拟机 ★★★ 虚拟机 CentOS 7的安装步骤 ★★★二、具体步骤 1.启动一台虚拟机。 2.输入命令：cd ~，切换至根目录。输入命令：hostname，查看当前主机名。输入命令：ip addr，查看当前主机的IP地址。输入命令：vi /etc/hosts，在上述文件中写入两行，一行为当前主机ip地址主机名;一行为另一台主机IP地址主机名比如：192.168.59.140 master，192.168.59.130

2020-12-10 19:09:49 10008 2

原创 [ 连接 ] Xshell、Xftp连接至虚拟机！

第三方软件连接至虚拟机一、安装软件二、具体步骤（一）连接至Xshell（二）连接至Xftp一、安装软件 ★★★ Xshell下载连接 ★★★ ★★★ Xftp下载链接 ★★★ ★★★ 虚拟机 CentOS 7的安装步骤 ★★★二、具体步骤（一）连接至Xshell 1.按照上述虚拟机安装步骤将虚拟机安装好、网络配通，连接时保持开机。 2.打开Xshell，并按照如图1所示，将虚拟机连接至Xshell。（二）连接至Xftp 1.按照上述虚拟机安装步骤将虚拟机安装好、网络配通，

2020-12-10 16:49:58 1280

原创 [ 安装 ] MySQL安装步骤！

虚拟机MySQL安装步骤一、准备工作二、具体步骤（一）解压（二）配置环境变量一、准备工作 1.启动一台虚拟极，并连接至Xshell、Xftp。 2.在Xftp里新建一个目录：opt，在opt下方新建两个子目录：software、download。 3.将所需文件上传至Xftp里的download目录。二、具体步骤（一）解压 1.输入命令：tar -zxvf jdk-8u111-linux-x64.tar.gz -C ../software/，将jdk压缩包解压至“/opt/softw

2020-12-09 17:49:41 377

原创 [ 安装 ] JDK安装步骤及文件配置！

虚拟机JDK安装步骤及文件配置一、准备工作二、具体步骤（一）解压（二）配置环境变量一、准备工作 1.启动一台虚拟极，并连接至Xshell、Xftp。 2.在Xftp里新建一个目录：opt，在opt下方新建两个子目录：software、download。 3.将所需文件上传至Xftp里的download目录。二、具体步骤（一）解压 1.输入命令：tar -zxvf jdk-8u111-linux-x64.tar.gz -C ../software/，将jdk压缩包解压至“/opt/so

2020-12-09 17:48:05 1752

原创 [ 知识点 ] 20201204-周测知识点（Hadoop）

题目：一、Hadoop架构有哪些组件？分别有什么作用？二、HDFS有哪些组件？分别有什么作用？三、HDFS的优缺点是什么？四、HDFS读写流程是什么？五、MapReduce的优缺点是什么？六、MapReduce的shuffle流程是什么？七、Combiner是做什么的？一定要有吗？使用Combiner时有什么限制条件？八、Map端的join和Reduce的join的使用场景分别是什么？有什么区别？九、Yarn的组件有哪些？分别有什么作用？十、简述一下Yarn的Job提交流程十一、Hadoop自带的作业调度器

2020-12-06 16:36:24 1923 6

原创 [ 知识点 ] Linux tar 命令

Linux tar（英文全拼：tape archive ）命令用于备份文件。tar 是用来建立，还原备份文件的工具程序，它可以加入，解开备份文件内的文件。语法tar [-ABcdgGhiklmMoOpPrRsStuUvwWxzZ][-b <区块数目>][-C <目的目录>][-f <备份文件>][-F <Script文件>][-K <文件>][-L <媒体容量>][-N &lt

2020-11-30 16:31:16 120

原创 [ 实现 ] Sqoop数据迁移

Sqoop数据互导一、准备工作1.启动Hadoop、Hive、Hbase等相关服务。2. 输入命令：cd /opt/software/hadoop/hive110/lib/、cp hive-hbase-handler-1.1.0-cdh5.14.2.jar /opt/software/hadoop/hbase120/lib/将hive的lib下的hive-hbase-handler-1.1.0-cdh5.14.2.jar拷贝到hbase的lib下。3. 拷贝hbase相关jar到hive中，命令如图

2020-11-19 23:49:05 224

原创 [ 安装 ] Sqoop的安装步骤及有关操作！

Sqoop安装步骤一、事前准备：1.启动一台虚拟机，并连接至Xshell。2.在Xftp里新建一个目录：opt，在opt下方新建两个子目录：software、download，并在software、download目录下再分别新建一个名为hadoop的子目录。3.将所需文件上传至Xftp里的download目录。二、具体步骤：（一）解压并重命名1.输入命令：cd hadoop/、ls，查看是否存在“sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz”这个文件

2020-11-18 17:34:29 610

原创 [ 知识点 ] Hive函数名及释义！

Hive数学函数名释义示例pow(x,y)返回x的y次方的值select pow(4,0.5); -> 2 select pow(4,2); -> 16conv(bigint/string base,int from_base,int to_base)返回数值base从from_base进制转换为to_base进制的字符串select conv(‘100101’,2,10); -> 37 select conv(‘100101’,2,16);...

2020-11-15 12:30:24 407

空空如也

空空如也