自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(231)
  • 资源 (3)
  • 收藏
  • 关注

原创 MySQL04:【主从复制】CentOS系统部署MySQL8.0.16主从数据库

一、环境信息master:192.168.52.130slave:192.168.52.131二、首先按照单机方式安装好mysql注意!卸载原生的数据库rpm -qa|grep mariadbrpm -e --nodeps mariadb-libs-5.5.56-2.el7.x86_64MySQL01:Linux安装MySQL8.0.16三、关闭防护墙systemctl stop firewalld.servicesystemctl disable firewalld.servi

2022-04-02 22:29:52 1362 1

原创 Kubernetes11:【持续集成】CICD

CICD

2022-03-22 00:06:21 1030 1

原创 Kubernetes10:【多类型业务迁移】业务系统迁移Kubernetes:传统web服务迁移kubernetes

传统web服务迁移kubernetes

2022-03-22 00:06:01 275

原创 Kubernetes08:【多类型业务迁移】业务系统迁移Kubernetes:springboot的web服务迁移kubernetes

springbootdeweb服务迁移kubernetes

2022-03-22 00:05:30 238

原创 Kubernetes07:【多类型业务迁移】业务系统迁移Kubernetes:定时任务迁移kubernetes

定时任务迁移kubernetes

2022-03-22 00:05:12 277

原创 Kubernetes06:【平稳迁移做准备】业务系统迁移Kubernetes:kubernetes的服务发现、ingress-nginx安装部署

kubernetes的服务发现

2022-03-22 00:04:51 409

原创 Kubernetes02:容器运行时:Docker or Containerd如何选择、Containerd全面上手实践

一、Docker or Containerd如何选择二、Containerd全面上手实践

2022-03-21 12:36:25 2211

原创 Jenkins08:修改代码、提交代码、Push到github、构建任务

一、修改这个其实在上一章已经演示过了,不过我们是排查错误进行的。下面我们改一下文件将左上角的家常菜改为满汉全席cd /root/order/src/main/webapp/jsp/commonvi header.jsp二、提交代码cd /root/ordergit statusgit add src/main/webapp/jsp/common/header.jspgit statusgit commit -m "changes header.jsp"git push

2022-03-21 12:34:55 806

原创 Jenkins07:运行部署任务:任务构建、排错

一、注意!!一定要将你的工程放到jenkins的工作目录下!!你看脚本和构建的内容就知道了:1、depoly.sh内容如下:# 项目路径, 在Execute Shell中配置项目路径, pwd 就可以获得该项目路径# export PROJ_PATH=这个jenkins任务在部署机器上的路径# 输入你的环境上tomcat的全路径# export TOMCAT_APP_PATH=tomcat在部署机器上的路径### base 函数killTomcat(){ pid=`ps

2022-03-20 01:51:05 244

原创 Kubernetes03:【Kubernetes集群搭建】kubespary方式

kubespary方式

2022-03-20 01:46:53 2877

原创 Kubernetes04:【Kubernetes集群搭建】二机制方式

K8s二进制-TheHardWay方式部署

2022-03-20 01:46:23 337

原创 Hadoop中常见组件的常用命令:Hadoop、Flume、Hive、Zookeeper、Hbase、Spark、Kafka、Redis、Flink

一、Hadoop启动start-all.sh停止stop-all.sh查看进程jpsjps -mps -ef |grep 进程名称1、hdfs2、MapReduce3、Yarn二、Flume1、启动flume任务方式1:flume-ng agent --name a1 --conf conf --conf-file conf/example.conf -Dflume.root.logger=INFO,console2、启动命令1解释:后面指定agent,表示启动一个

2022-03-18 11:15:21 1196

原创 Elasticsearch05:ES的基本操作

一、ES的基本操作针对ES的操作,官方提供了很多种操作方式。https://www.elastic.co/guide/index.html在实际工作中使用ES的时候,如果想屏蔽语言的差异,建议使用REST API,这种兼容性比较好,但是个人感觉有的操作使用起来比较麻烦,需要拼接组装各种数据字符串。针对Java程序员而言,还有一种选择是使用Java API,这种方式相对于REST API而言,代码量会大一些,但是代码层面看起来是比较清晰的。下面在操作ES的时候,分别使用一下这两种方式:使用R

2022-03-16 00:06:58 772

原创 Elasticsearch03:ES安装部署【集群】

一、安装包下载1、官网下载https://www.elastic.co/cn/downloads/past-releases#elasticsearchES 7.13.4版本的安装包下载地址为:https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.13.4-linux-x86_64.tar.gz2、百度网盘地址链接:https://pan.baidu.com/s/1rnvMTGm5CYAh0GfdNDHx-g

2022-03-16 00:06:33 285

原创 Flink03:Flink集群安装部署:Standaone模式、ON YARN模式

Flink支持多种安装部署方式StandaloneON YARNMesos、Kubernetes、AWS…这些安装方式我们主要讲一下standalone和on yarn。如果是一个独立环境的话,可能会用到standalone集群模式。在生产环境下一般还是用on yarn 这种模式比较多,因为这样可以综合利用集群资源。和我们之前讲的spark on yarn是一样的效果这个时候我们的Hadoop集群上面既可以运行MapReduce任务,Spark任务,还可以运行Flink任务,一举三得。一、

2022-03-15 00:12:12 1562

原创 Kafka08:Kafka集群监控管理工具:CMAK安装部署以及使用

一、CMAK介绍现在我们操作Kafka都是在命令行界面中通过脚本操作的,后面需要传很多参数,用起来还是比较麻烦的,那kafka没有提供web界面的支持吗?很遗憾的告诉你,Apache官方并没有提供,不过好消息是有一个由雅虎开源的一个工具,目前用起来还是不错的。它之前的名字叫KafkaManager,后来改名字了,叫CMAKCMAK是目前最受欢迎的Kafka集群管理工具,最早由雅虎开源,用户可以在Web界面上操作Kafka集群。可以轻松检查集群状态(Topic、Consumer、Offset、Bro

2022-03-14 10:04:48 4595 1

原创 Kafka02:Kafka安装部署:单机安装部署、集群安装部署

前面我们对Kafka有了一个基本的认识,下面我们就想使用一下Kafka在使用之前,需要先把Kafka安装部署起来Kafka是支持单机和集群模式的,建议大家在学习阶段使用单机模式即可,单机和集群在操作上没有任何区别。注意:由于Kafka需要依赖于Zookeeper,所以在这我们需要先把Zookeeper安装部署起来。一、Zookeeper安装部署1、Zookeeper单机安装Zookeeper02:Zookeeper安装部署【单机】2、Zookeeper集群安装Zookeeper03:Zook

2022-03-13 09:29:28 1187

原创 数据仓库之【商品订单数据数仓】11:任务调度:Crontab任务调度器、Azkaban调度器、数仓使用Azkaban

一、任务调度针对数据仓库中的任务脚本我们前面已经整理过了,任务脚本还是比较多的,针对初始化表的脚本只需要执行一次即可,其它的脚本需要每天都执行一次,这个时候就需要涉及到任务定时调度了。二、Crontab调度器的使用咱们前面在学习Linux的时候学过一个crontab调度器,通过它可以实现定时执行指定的脚本。针对我们这个数据仓库中的这些脚本使用crontab进行调度是可以的。但是需要注意一点:这些任务之间是有一些依赖关系的,从大的层面上来说,dwd层的任务需要等ods层的任务执行成功之后才能开始执行

2022-03-13 09:28:36 3149 1

原创 数据仓库之【商品订单数据数仓】10:数据可视化工具:Zeppelin安装部署、Zeppelin使用

一、数据可视化数据可视化这块不是项目的重点,不过为了让大家能有一个更加直观的感受,我们可以选择一些现成的数据可视化工具实现。咱们前面分析过,想要查询hive中的数据可以使用hue,不过hue无法自动生成图表。所以我们可以考虑使用Zeppelin针对一些复杂的图表,可以选择定制开发,使用echarts、finebi组件实现。二、Zeppelin安装部署注意:不要使用Zeppelin0.8.2版本,这个版本有bug,无法使用图形展现数据。在这我们使用zeppelin-0.9.0-preview1这

2022-03-13 09:28:11 835

原创 Sqoop01:Sqoop安装部署以及快速使用:从MySQL导入HDFS、从HDFS导出MySQL

一、Sqoop的版本Sqoop目前有两大版本,Sqoop1和Sqoop2,这两个版本都是一直在维护者的,所以使用哪个版本都可以。这两个版本我都用过,还是感觉Sqoop1用起来比较方便,使用Sqoop1的时候可以将具体的命令全部都写到脚本中,这样看起来是比较清晰的,但是有一个弊端,就是在操作MySQL的时候,MySQL数据库的用户名和密码会明文暴露在这些脚本中,不过一般也没有什么问题,因为在访问生产环境下的MySQL的时候,是需要申请权限的,就算你知道了MySQL的用户名和密码,但是你压根无法访问MySQ

2022-03-10 09:33:36 3729

原创 Spark03:Spark安装部署【集群】:Standalone模式以及ON YARN模式

一、Spark集群安装部署Spark集群有多种部署方式,比较常见的有Standalone模式和ON YARN模式1、Standalone模式Standalone模式就是说部署一套独立的Spark集群,后期开发的Spark任务就在这个独立的Spark集群中执行2、ON YARN模式ON YARN模式是说使用现有的Hadoop集群,后期开发的Spark任务会在这个Hadoop集群中执行,此时这个Hadoop集群就是一个公共的了,不仅可以运行MapReduce任务,还可以运行Spark任务,这样集群的资

2022-03-08 09:35:17 2668

原创 Scala01:Scala介绍及安装配置

2022-03-07 09:24:31 313

原创 Hbase06:Java操作HBase:增删改查操作

一、创建maven项目创建maven项目:db_hbase二、添加依赖由于需要操作HBase,所以需要在pom.xml中添加hbase-client依赖<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>2.2.7</version></d

2022-03-06 09:18:50 1517

原创 Hbase05:HBase 常用Shell命令:基础命令、DDL命令、增删改查、命名空间相关命令

一、HBase 常用Shell命令HBase集群启动之后,下面我们来操作一下HBase1、HBase两种形式HBase的使用在工作中主要分为两种形式1、在开发和调试阶段,我们会通过HBase自带的shell命令行去操作,可以执行创建表,添加数据,修改数据之类的操作,比较方便2、在程序上线运行阶段,需要通过代码来操作HBase,HBase提供的有JavaAPI可以使用在这里我们先看一下HBase中常用的一些shell命令2、HBase命令分类在这里可以把HBase中的命令总结为三种1、基础命

2022-03-06 09:18:37 3783

原创 Hbase04:Hbase安装部署【集群】

一、Hbase安装部署【集群】HBase集群也是支持主从架构的,在这计划使用bigdata01、02、03这三台机器。建议把HBase的从节点和Hadoop集群的从节点部署在相同的机器上面,这样可以最大化利用数据本地化的特性。所以最终的节点规划如下:bigdata01 HMaster(HBase的主节点,主节点可以支持多个,实现HA)bigdata02 HRegionserver(HBase的从节点)bigdata03 HRegionserver(HBase的从节点)二、安装部署1、基

2022-03-06 09:18:04 827

原创 Zookeeper03:Zookeeper安装部署【集群】

一、规划集群节点集群节点规划,使用三个节点搭建一个zookeeper集群bigdata01bigdata02bigdata03注意:这里提前安装好jdk环境,jdk安装见:Linux03:CentOS7.5安装jdk1.8二、安装包下载zookeeper官网下载地址百度网盘的地址:链接:https://pan.baidu.com/s/1uIUiqq1hLY0B7xZY33OjFQ?pwd=sf3k 提取码:sf3k 三、进行安装1、bigdata01配置首先在bigdata01

2022-03-06 09:14:47 397

原创 Hive05:Hive的进阶操作01之数据库和表的操作、数据类型

一、Hive中数据库操作二、Hive中表的操作三、Hive中的数据类型1、基本数据类型2、复合数据类型(1)Array(2)Map(3)Struct(4)Struct和Map的区别

2022-03-05 15:41:40 1230

原创 Hive04:Hive的基本操作:命令行操作、JDBC方式操作以及Set命令的使用

一、Hive的使用方式操作Hive可以在Shell命令行下操作,或者是使用JDBC代码的方式操作下面先来看一下在命令行中操作的方式二、命令行方式针对命令行这种方式,其实还有两种使用1、hive命令第一个是使用bin目录下的hive命令,这个是从hive一开始就支持的使用方式后来又出现一个beeline命令,它是通过HiveServer2服务连接hive,它是一个轻量级的客户端工具,所以后来官方开始推荐使用这个。具体使用哪个我觉得属于个人的一个习惯问题,特别是一些做了很多年大数据开发的人,已经

2022-03-05 15:41:20 2641

原创 Hive03:Hive安装部署

一、Hive安装部署想要安装Hive,那首先要下载Hive的安装包,进入Hive的官网,找到download下载链接。发现目前hive主要有三大版本,Hive1.x、Hive2.x、Hive3.xHive1.x已经2年没有更新了,所以这个版本后续基本不会再维护了,不过这个版本已经迭代了很多年了,也是比较稳定的Hive2.x最近一直在更新Hive3.x上次是19年8月份更新的,也算是一直在维护那我们到底选择哪个版本呢?注意了,在选择Hive版本的时候我们需要注意已有的Hadoop集群的版本。因

2022-03-05 15:41:02 909

原创 Flume05:【案例】采集网站日志上传至HDFS

前面我们讲了两个案例的使用,接下来看一个稍微复杂一点的案例:需求是这样的,1、将A和B两台机器实时产生的日志数据汇总到机器C中2、通过机器C将数据统一上传至HDFS的指定目录中注意:HDFS中的目录是按天生成的,每天一个目录看下面这个图,来详细分析一下根据刚才的需求分析可知,我们一共需要三台机器这里使用bigdata02和bigdata03采集当前机器上产生的实时日志数据,统一汇总到bigdata04机器上。其中bigdata02和bigdata03中的source使用基于file的so

2022-03-04 08:50:57 1420

原创 Flume04:【案例】使用Flume采集文件内容上传至HDFS

案例:采集文件内容上传至HDFS接下来我们来看一个工作中的典型案例:采集文件内容上传至HDFS需求:采集目录中已有的文件内容,存储到HDFS分析:source是要基于目录的,channel建议使用file,可以保证不丢数据,sink使用hdfs下面要做的就是配置Agent了,可以把example.conf拿过来修改一下,新的文件名为file-to-hdfs.conf首先是基于目录的source,咱们前面说过,Spooling Directory Source可以实现目录监控来看一下这个Spoo

2022-03-03 08:21:11 7227 3

原创 Flume02:Flume安装部署

想要使用Flume采集数据,那肯定要先安装Flume在这里我重新克隆了一台Linux机器,主机名设置为bigdata04,ip设置为192.168.182.103注:如果没有空闲资源就和Hadoop安装在一起。关闭防火墙,安装jdk并配置环境变量,因为Flume是java开发,所以需要依赖jdk环境注:这些步骤去看我之前的文档这些工作已经提前做好了,继续往下面分析想要安装Flume,首先需要下载Flume,进入Flume的官网,找到Download链接。安装包下载好以后上传到linux机器

2022-03-03 08:20:24 181

原创 Hadoop20:【案例】YARN多资源队列配置和使用

案例:YARN多资源队列配置和使用我们的需求是这样的,希望增加2个队列,一个是online队列,一个是offline队列然后向offline队列中提交一个mapreduce任务online队列里面运行实时任务offline队列里面运行离线任务,我们现在学习的mapreduce就属于离线任务实时任务我们后面会学习,等讲到了再具体分析。这两个队列其实也是我们公司中最开始分配的队列,不过随着后期集群规模的扩大和业务需求的增加,后期又增加了多个队列。在这里我们先增加这2个队列,后期再增加多个也是一样的

2022-03-03 08:18:54 2193 2

原创 Hadoop18:【案例】MapReduce性能优化之数据倾斜问题解决方案

在实际工作中,如果我们想提高MapReduce的执行效率,最直接的方法是什么呢?我们知道MapReduce是分为Map阶段和Reduce阶段,其实提高执行效率就是提高这两个阶段的执行效率默认情况下Map阶段中Map任务的个数是和数据的InputSplit相关的,InputSplit的个数一般是和Block块是有关联的,所以可以认为Map任务的个数和数据的block块个数有关系,针对Map任务的个数我们一般是不需要干预的,除非是前面我们说的海量小文件,那个时候可以考虑把小文件合并成大文件。其他情况是不需要

2022-03-03 08:18:23 789

原创 Hadoop17:【案例】MapReduce性能优化之小文件问题解决方案

一、MapReduce性能优化现在大家已经掌握了MapReduce程序的开发步骤,注意了,针对MapReduce的案例我们并没有讲太多,主要是因为在实际工作中真正需要我们去写MapReduce代码的场景已经是凤毛麟角了,因为后面我们会学习一个大数据框架Hive,Hive支持SQL,这个Hive底层会把SQL转化为MapReduce执行,不需要我们写一行代码,所以说工作中的大部分需求我们都使用SQL去实现了,谁还苦巴巴的来写代码啊,一行SQL能抵你写的几十行代码,你还想去写MapReduce代码吗,肯定不想

2022-03-03 08:18:08 813

原创 Hadoop13:【案例】MapReduce任务日志查看

在上一篇中介绍了MapReduce进行单词计数的案例,这一章介绍下怎么查看MapReduce的任务日志。如果想要查看mapreduce任务执行过程产生的日志信息怎么办呢?是不是在提交任务的时候直接在这个控制台上就能看到了?先不要着急,我们先在代码中增加一些日志信息,在实际工作中做调试的时候这个也是很有必要的一、syout日志输出1、mapper类修改在自定义mapper类的map函数中增加一个输出,将k1,v1的值打印出来添加内容如下:mapper类修改后代码如下:public stati

2022-03-01 20:05:11 4051 2

原创 Hadoop09:【案例】之定时上传数据到HDFS脚本

一、需求分析:在实际工作中会有定时上传数据到HDFS的需求,我们有一个web项目每天都会产生日志文件,日志文件的格式为access_2020_01_01.log这种格式的,每天产生一个,我们需要每天凌晨将昨天生成的日志文件上传至HDFS上,按天分目录存储,HDFS上的目录格式为20200101二、 思路:针对这个需求,我们需要开发一个shell脚本,方便定时调度执行第一步:我们需要获取到昨天日志文件的名称第二步:在HDFS上面使用昨天的日期创建目录第三步:将昨天的日志文件上传到刚创建的HDFS目

2022-03-01 14:58:23 769

原创 Hadoop04:HDFS的常见Shell操作

一、前提部署好hadoop,伪分布式部署还是分布式集群部署都可以,部署参见如下:1、伪分布部署参见:https://blog.csdn.net/weixin_40612128/article/details/119008295?spm=1001.2014.3001.55022、分布式集群部署参见:https://blog.csdn.net/weixin_40612128/article/details/122770580?spm=1001.2014.3001.5502二、检查hadoop各个

2022-02-18 19:23:28 2619

原创 Hadoop02:Hadoop分布式集群安装

Hadoop分布式集群部署

2022-02-02 17:16:03 1853

原创 Hadoop100:大数据平台安装部署--CDH6.2版本【集群】

1:CDH介绍CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。简单来说:CDH 是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得集群的安装可以从几天的时间缩短为几个小时,运维人数也会从数十人降低到几个人,极大的提高了集群管理的效率。2:CDH现状分

2022-02-02 16:54:47 5897 3

Shell脚本编程.docx

Shell脚本开发从0开始

2021-12-12

hadoop-3.2.0.tar.gz

hadoop3.2.0

2021-07-26

01-虚拟机的安装使用.pdf

VMWare安装使用教程

2021-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除