自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(105)
  • 收藏
  • 关注

原创 Docker入门详细教程,全网最全!

DockerDocker学习Docker概述Docker安装Docker命令Docker镜像容器数据卷DockerFileDocker网络原理IDEA整合DockerDocker Compose(集群)Docker SwarmCI\CD Jenkins流水线Docker概述Docker为什么会出现?一款产品:开饭—上线!两套环境,应用环境,应用配置开发-----运维。问题?明明在我的电脑上可以运行,怎么你这里就不行呢?版本更新导致服务不可用,对于运维来说,考验就十分

2020-06-07 00:59:20 13338 2

原创 Playwright自动化测试工具 java版本

playwright自动化测试java版本

2023-07-06 23:30:02 442

原创 基于Filebeat、Kafka搭建ELK日志分析平台详细步骤

基于Filebeat、Kafka搭建ELK日志分析平台详细步骤

2023-03-17 00:56:30 1858 4

原创 java单例模式

单例模式

2023-02-21 20:41:59 93

转载 Mobx学习

mobx学习

2022-09-25 23:13:56 413

转载 React基础快速入门

react学习

2022-09-25 23:11:04 397

原创 hql练习:区间上下限问题

表结构-- 表1小明 26小强 45小司 57小武 12小高 80小陈 99小张 45小李 77小红 93小赵 90-- 表20306080100-- 建表create table if not exists score(name string, score string)row format delimited fields terminated by '\t'stored as textfilelocation '/user/hive/warehous

2022-01-15 19:58:15 1248

转载 虚拟机设置静态IP后连接不上的问题

问题描述CentOS7 Failed to start LSB: Bring up/down networking解决办法1. systemctl stop NetworkManager2. systemctl disable NetworkManager3. ip addr

2022-01-15 17:48:49 595

原创 hive生成日期维度表Hql

hive生成日期维度表利用现有的函数,生成维度表表结构日期key具体日期第几月份第几季度年份周几当前周的第几天当前月的第几天当前年的第几天当前年的第几周当前周的第一天当前周的最后一天分析上述的表字段都是基于某个具体日期上计算的,所有首先要生成一个日期表,然后再计算每一天的具体属性范围根据自己的需求,比如我这里定义的日期范围是2022-01-01~2022-12-31# 1.使用date_add()以及posexplode()生成目标日期范围数据select d

2022-01-08 10:50:33 1820

原创 spark学习之SparkStreaming

SparkStreamingSpark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。SparkStreaming概述数据处理延迟方式 实时:数据处理在毫秒级别,秒 离线:数据处理延迟以小时,天为单位数据处理的方式 流

2021-11-09 23:18:13 3462

原创 spark学习之SparkSQL

SparkSQLSparkSQL概述Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。SparkSQL编程DataFrame编程sparkSessionSpark Core中,如果想要执行应用程序,需要首先构建上下文环境对象SparkContext,Spark SQL其实可以理解为对Spark Core的一种封装,不仅仅在模型上进行了封装,上下文环境对象也进行了封装。在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLCo

2021-11-07 17:33:35 1259

原创 spark实现简单需求案例

需求案例数据格式* 编号 字段名称 字段类型 字段含义 * 1 date String 用户点击行为的日期 * 2 user_id Long 用户的ID * 3 session_id String Session的ID * 4 page_id Long 某个页面的ID * 5 action_time String 动作的时间点 * 6 search_keyword String 用户搜索的关键词 * 7 click_category_id Lo

2021-11-06 17:41:39 1246

原创 spark学习之RDD与算子

spark学习之RDDSpark计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是:RDD : 弹性分布式数据集累加器:分布式共享只写变量广播变量:分布式共享只读变量什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。# 弹性 - 存储的弹

2021-11-02 00:30:19 388

原创 Spark学习之体验与基本概念

Spark学习之SparkCoreSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark基于MR框架的,但是优化了其中的计算过程,使用内存来代替计算结果Spark基于Scala语言开发,更适合迭代计算和数据挖掘计算Spark中计算模型非常丰富,MR中只有Mapper和Reducer两种,Scala中有map,filter,group by,sort by等等spark概述Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。spark与hadoop

2021-11-01 00:03:36 261

原创 hbase学习之整合Phoenix与hive

hbase学习之整合Phoenix与hivePhoenixPhoenix简介定义Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。特点1)容易集成:如Spark,Hive,Pig,Flume和Map Reduce;2)操作简单:DML命令以及通过DDL命令创建和操作表和版本化增量更改;3)支持HBase二级索引创建。架构Phoenix快速入门部署安装#1.官网地址http://phoe

2021-10-23 22:21:17 1297

原创 hbase学习之安装入门,API使用,与性能优化

hbase学习之安装与入门hbase简介HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。逻辑和物理存储结构逻辑结构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8kkaiwMF-1634921637446)(C:\Users\Administrator.DESKTOP-FLGB82I\Desktop\大数据学习笔记\image-20211022004419438.png)]物理结构数据模型1)Name Space命名空间,类似于关系

2021-10-23 00:58:03 1325

原创 数仓采集之环境搭建sqoop,hive

数仓采集_业务数据安装mysql参数之前的hive安装mysql的步骤:https://blog.csdn.net/weixin_44178366/article/details/120559203?spm=1001.2014.3001.5501安装好mysql之后将mock的数据导入新建的gmall数据库生成数据# 修改application.properties,先修改为重置为1[atguigu@hadoop102 db_log]$ pwd/opt/module/db_log[at

2021-10-21 00:00:44 434 1

原创 Linux的profile相关配置出错导致ls,clear等所有命令失效的解决办法

大坑,今天遇到的,编辑环境变量的时候疏忽导致PATH配置错误,整个机器的功能全部失效。所有命令都无法执行。解决方案export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin修改好你的profile相关配置(这个时候所有的命令已经恢复)source /etc/profile...

2021-10-17 22:36:51 581

原创 数仓采集之环境搭建hadoop,zookeeper,kafka,flume

数仓采集_用户行为模块之环境搭建前期的阿里云ECS环境已装好,现在开始正式搭建项目的环境hadoop安装配置1.集群规划服务器hadoop102服务器hadoop103服务器hadoop104HDFSNameNodeDataNodeDataNodeDataNodeSecondaryNameNodeYarnNodeManagerResourcemanagerNodeManagerNodeManager2.部署安装hadoop我这里使用的版本是ha

2021-10-17 22:20:54 836

原创 数仓采集之服务器选择与基础配置(阿里云)

数仓采集_服务器选择(阿里云)本地的虚拟机快要搞吐了,项目一大根本带不动,准备搞个阿里云的测试环境来玩玩。准备三台服务器抢占式阿里云也挺适合的呀,早不知道,又在闲鱼浪费几百块。。。公网ip: 47.106.23.153(hadoop102) 公网ip: 120.77.85.26(hadoop103) 公网ip: 120.79.81.126(hadoop104) 设置安全组搭建集群前的准备参考我的模板机设置:https://blog.csdn.net/weixin_44

2021-10-17 22:14:29 570

原创 kafka学习之监控与flume对接

kafka学习之监控与对接flumekafka和flume的对接kafkaSource,kafkaSink,kafkaChannel组件描述 1) KafkaSource 用于从kafka中读取数据. KafkaSource对于flume来讲是一个source的角色. 对于Kafka来讲,是一个消费者的角色. 2) KafkaSink 用于往Kafka中写数据 KafkaSink对于flume来讲是一个sink的角色,对于kafka来讲,是一个生产者的角色. 3

2021-10-14 23:58:29 457

原创 kafka学习之安装与入门

kafka学习之安装与入门kafka概述Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。kafka是基于发布订阅模式的主动拉取策略的。kafka接触架构总结 1) Kafka集群 Kafka集群是由多个Broker组成的。 每个Broker拥有唯一的id. Kafka集群中有多个Topic.每个Topic可有多个分区(partition),每个分区可有多个副本(replication). 一个To

2021-10-14 01:05:51 790

原创 flume学习之企业架构案例

flume学习之进阶Flume事务主要是用来保证数据的一致性,要么都成功,要么都失败。事务原理图Flume Agent内部原理总结下:就是说Source中采集到的event并不是直接到channel中的,而是首先会经过一个ChannelProcessor,这个processor会让我们的event去走了拦截器链,随后processor又将经过拦截器链后的event送到ChannelSelector,selector有两种,分别是Replicating Channel Selector和Mul

2021-10-12 00:28:02 197

原创 flume学习之安装与入门

flume学习之安装与入门Flume概述Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume基础架构AgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成,Source、Channel、Sink。SourceSource是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avr

2021-10-10 19:42:15 212

原创 hive实战训练

hive实战训练需求:统计影音视频网站的常规指标,各种TopN指标:– 统计视频观看数Top10– 统计视频类别热度Top10– 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数– 统计视频观看数Top50所关联视频的所属类别Rank– 统计每个类别中的视频热度Top10,以Music为例– 统计每个类别视频观看数Top10– 统计上传视频最多的用户Top10以及他们上传的视频观看次数在前20的视频数据结构该项目主要涉及两张表:视频表以及用户表视频表

2021-10-10 00:13:38 429

原创 hive学习之企业优化思路

hive学习之企业优化思路执行计划(explain)基本语法explain【extended】 + hql语句示例explain select deptno, avg(sal) avg_sal from emp group by deptno;+----------------------------------------------------+| Explain |+---------------

2021-10-08 23:58:44 92

原创 hive学习之压缩与存储

hive学习之压缩与存储hadoop压缩配置生产环境一般用的比较多的是: LZO与SnappyMR支持的压缩编码压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示:压缩格式对应的编码

2021-10-08 21:10:11 96

原创 hive学习之函数

hive学习之函数系统内置函数查看系统自带的函数show functions;查看内置函数的用法desc function 函数名;desc function extended 函数名;常用日期函数1. unix_timestamp:返回当前或指定时间的时间戳 select unix_timestamp();select unix_timestamp("2020-10-28",'yyyy-MM-dd');2. from_unixtime:将时间戳转为日期格式select fro

2021-10-07 23:25:39 827 1

原创 hive学习之分区表与分桶表

hive学习之分区表与分桶表重点掌握分区表分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。分区表基本操作引入分区表(需要根据日期对日志进行管理,通过部门信息模拟)dept_20200401.logdept_20200402.logdept_20200403.log……

2021-10-06 12:31:22 290

原创 hive学习之hql教程

Hsql语法DDL数据定义数据库的ddl创库语法create database [if not exists] database_name[comment database_comment][location hdfs_path] -- 先不指定location[with dbproperties (property_name=property_value,...)];# 创建库mydbcreate database if not exists mydbcomment "my fir

2021-10-01 22:02:40 928

原创 hive学习之启动方式,常用命令及数据类型

hive启动方式,常用命令及数据类型启动hive启动方式有两种,一种时普通的客户端,另一种是jdbc协议的客户端普通客户端# 前提启动hadoop集群[atguigu@hadoop102 bin]$ hivexxxhive> show databases;OKdefaultTime taken: 0.844 seconds, Fetched: 1 row(s)jdbc协议的客户端beeline --------->hiveserver2--------->h

2021-10-01 12:39:33 1100

原创 hive学习之基本概念与安装

hive学习之基本概念与安装hive基本概念什么是hiveHive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。hive的本质将HQL转化成MapReduce程序(1)Hive处理的数据存储在HDFS(2)Hive分析数据底层的实现是MapReduce(3)执行程序运行在Yarn上hive的优缺点优点(1)操作接口采用类SQL语法,提供快速开发的能力(简单、

2021-09-30 01:14:52 121

原创 hadoop+zookeeper搭建高可用集群

hadoop搭建高可用集群问题:现有集群存在哪些问题?HDFS集群,单个NN场景下,如果NN故障了,整个HDFS集群就不可用(中心化集群),解决方案是配置多个NN。但是问题又来了,多个NN的场景下由哪一台对外提供服务呢?当HDFS实现多NN的高可用后,但是只有一台NN对外提供服务,其他的NN都是替补,当正在提供服务的NN宕机故障(standby),其他的NN自动切换Active状态当一台NN故障后,其他NN如果争抢上位采用高可用集群中的自动故障转移机制来完成切换2NN在高可用的集群中还要不要

2021-09-29 01:16:26 750 2

原创 zookeeper学习教程

Zookeeper学习教程Zookeeper入门概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应.特点数据结构ZK中没有文件的概念,节点下直接存的就是内容下载地址https://zo

2021-09-28 01:14:51 2513

原创 hadoop之Yarn学习教程

hadoop之Yarn学习Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn基本架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。Yarn工作机制(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(

2021-09-25 21:24:50 256

原创 hadoop之MapReduce学习教程

hadoop之YARN学习MapReduce概述MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并行运行在一个Hadoop集群上。MapReduce优缺点优点易于编程良好的扩展性当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。高容错性MapReduce设计的初

2021-09-23 07:28:22 516

原创 hadoop之HDFS学习教程

Hadoop之HDFSHDFS概述HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统,HDFS只是分布式文件管理系统中的一种HDFS定义Hadoop Distributed File System ,它是一个文件系统,用于存储文件,通过目录树来定位文件,其次,他是分布式的,由很多服务器联合起来实现功能,集群中的服务器有各自的角色,HDFS使用场景:适合

2021-09-21 23:52:01 346

原创 hadoop集群搭建之测试集群,配置历史服务器,日志聚集,时间同步

hadoop完全分布式之测试集群,配置历史服务器,日志聚集,时间同步前期概要:我们完全分布式集群已经搭建完毕,并且还写了群启/群关的脚本,接下来有必要来测试一遍集群,我们可以使用官方的案例,用它们在集群上跑一遍运行官方wordcount案例[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /wcinput /wcoutp

2021-09-20 22:26:59 339

原创 hadoop集群搭建之运行环境准备以及群启HDFS,YARN集群

hadoop入门-运行环境的搭建前期准备工作:制作了一模拟机hadoop101,然后在hadoop101的基础上,进行克隆,制作了一台hadoop102的服务器,配置好了jdk1.8以及hadoop3的环境变量hadoop安装目录介绍[atguigu@hadoop102 hadoop-3.1.3]$ lldrwxr-xr-x. 2 atguigu atguigu 4096 9月 12 2019 bin drwxr-xr-x. 3 atguigu atguigu 4096 9月

2021-09-20 17:54:52 742

原创 hadoop集群搭建之前期准备工作创建最小化centos步骤

hadoop集群搭建之前期准备工作创建纯净版centos7准备号VMare,以及CentOS镜像,我这里的版本是:VMare15.xCentOs7.x创建新的虚拟机点击完成后,还要再等待一段安装时间,大概五六分钟的样子...

2021-09-19 18:47:17 63

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除