自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 数仓分层概念

数仓分层概念1.1 为什么要分层1.2 分层结构图1.3 关于区分数据集市与数据仓库1.1 为什么要分层1.2 分层结构图数据分层原理1、ODS层(原始数据层)原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。2、DWD层(明细数据层)结构和粒度与ODS层保持一致,对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据),也有公司叫DWI。3、DWS层(服务数据层)以DWD为基础,进行轻度汇总。一般聚集到以用户当日,设备当日,商家当日,商品当日等等的粒度。

2022-01-29 20:00:23 192

原创 (1)数仓项目

(1)数仓项目1.数仓概念2.项目需求2.1 项目需求分析2.2 项目框架2.2.1 技术选型2.2.2 系统架构图设计2.2.3 系统数据流程设计1.数仓概念2.项目需求2.1 项目需求分析2.2 项目框架2.2.1 技术选型2.2.2 系统架构图设计2.2.3 系统数据流程设计...

2022-01-26 21:38:57 1473

原创 CAP理论以及kafka当中的CAP机制

CAP理论以及kafka当中的CAP机制1.1、分布式系统当中的CAP理论1.2、Partition tolerance1.3、Consistency1.4、Availability1.5、kafka当中的CAP应用1.1、分布式系统当中的CAP理论分布式系统(distributed system)正变得越来越重要,大型网站几乎都是分布式的。分布式系统的最大难点,就是各个节点的状态如何同步。为了解决各个节点之间的状态同步问题,在1998年,由加州大学的计算机科学家 Eric Brewer 提出分布

2022-01-24 22:27:58 1310

原创 kafka消息不丢失制

kafka消息不丢失制1.1、生产者生产数据不丢失1.1.1、生产者数据不丢失过程图1.1.2、发送数据方式1.1.3、ack机制(确认机制)1.2、kafka的broker中数据不丢失1.3、消费者消费数据不丢失1.1、生产者生产数据不丢失1.1.1、生产者数据不丢失过程图说明:有多少个分区,就启动多少个线程来进行同步数据1.1.2、发送数据方式可以采用同步或者异步的方式-过程图可以采用同步或者异步的方式同步:发送一批数据给kafka后,等待kafka返回结果1、生产者等待10s,如

2022-01-22 19:50:53 100

原创 kafka集群操作-JavaAPI操作

kafka集群操作-JavaAPI操作1.2、kafka集群操作-JavaAPI操作1.2.1、添加依赖1.2.2、生产者代码1.2.3、消费者代码1.2、kafka集群操作-JavaAPI操作1.2.1、添加依赖创建maven工程并添加以下依赖jar包的坐标到pom.xml下面展示一些 内联代码片。<dependencies> <dependency> <groupId>org.apache.kafka</groupId>

2022-01-21 20:13:20 1426

原创 Kafka集群操作

Kafka集群操作1.1、kafka集群操作-控制台操作1.1.1、创建一个Topic1.1.2、查看主题命令1.1.3、生产者生产数据1.1.4、消费者消费数据1.1.5、运行describe topics命令1.1.6、修改topic属性1.1.6.1、增加topic分区数1.1.6.2、增加配置1.1.6.3、删除配置1.1.6.4、删除topic1.1、kafka集群操作-控制台操作1.1.1、创建一个Topic创建了一个名字为test的主题, 有三个分区,有两个副本node01执行以下命

2022-01-21 20:03:21 162

原创 Yarn资源调度

Yarn资源调度1.yarn的介绍:1.1yarn当中的各个主要组件的介绍1.2 yarn当中各个主要组件的作用:1.3 关于yarn常用参数设置1.yarn的介绍:yarn是hadoop集群当中的资源管理系统模块,从hadoop2.x开始引入yarn来进行管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存)以及运行在yarn上面的各种任务。总结一句话就是说:yarn主要就是为了调度资源,管理任务等其调度分为两个层级来说:一级调度管理:计算资源管理(CPU,内存,网络IO,磁盘)

2021-11-27 19:59:24 1147

原创 mapreduce参数优化

mapreduce参数优化1.mapreduce参数优化1.1 资源相关参数1.2 shuffle性能优化的关键参数,应在yarn启动之前就配置好1.3 容错相关参数1.4 本地运行mapreduce 作业1.5 效率和稳定性相关参数1.mapreduce参数优化1.1 资源相关参数以下调整参数都在mapred-site.xml这个配置文件当中有//以下参数是在用户自己的mr应用程序中配置就可以生效(1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单

2021-11-25 18:05:32 377

原创 MapTask及ReduceTask的运行机制

MapTask及ReduceTask的运行机制1.MapTask运行机制详解以及Map任务的并行度1.1详细步骤:1.2mapTask的一些基础设置配置(mapred-site.xml当中设置):2.ReduceTask 工作机制以及reduceTask的并行度2.1详细步骤:3.MapReduceshuffle过程1.MapTask运行机制详解以及Map任务的并行度整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内

2021-11-20 11:43:55 140

原创 MapReduce的详细介绍(一)

MapReduce的详细介绍(一)1 MapReduce程序运行模式1.1 本地运行模式1.2 集群运行模式2.1 MapReduce的分区与reduceTask的数量2.2 MapReduce排序以及序列化2.3 MapReduceshuffle过程1 MapReduce程序运行模式1.1 本地运行模式本地运行模式(1)mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行(2)而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上(3)怎样实现本地

2021-11-16 18:52:34 172

原创 分布式计算框架MapReduce入门

分布式计算框架MapReduce入门1.1、理解MapReduce思想1.2、Hadoop MapReduce设计构思1.3、MapReduce框架结构1.4、MapReduce编程规范1.1、理解MapReduce思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简

2021-11-15 14:14:09 93

原创 分布式文件系统hdfs的介绍

分布式文件系统hdfs的详细介绍1.1 hadoop的文件系统1.2 hdfs分布式文件系统设计的目标:1.3 HDFS的架构图之基础架构1.3.1 NameNode与Datanode的总结概述1.4 secondarynameNode如何辅助管理FSImage与Edits文件1.1 hadoop的文件系统hadoop的文件系统:文件系统:是一个顶层的抽象,具体的实现,需要取决于你自己的获取的实例,我们可以通过文件系统获取本地文件系统,操作linux磁盘上面的文件,也可以获取分布式文件系统,操作h

2021-11-13 20:36:27 1312

原创 HDFS的命令使用及特性

HDFS的命令使用及特性1、hdfs的高级使用命令1.1HDFS文件限额配置1.2 数量限额1.3空间大小限额2.hdfs的特性3.hadoop的架构模型3.1 hadoop1.x的架构模型:3.2 hadoop 2.x当中的架构模型:1、hdfs的高级使用命令1.1HDFS文件限额配置hdfs文件的限额配置允许我们以文件大小或者文件个数来限制我们在某个目录下上传的文件数量或者文件内容总量,以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量.1.2 数量限额hdfs dfs -

2021-11-13 00:33:15 1385

原创 CDH版本的zookeeper环境搭建

CDH版本的zookeeper环境搭建1、 CDH版本hadoop重新编译1.1为什么要编译hadoop2、CDH版本的zookeeper环境搭建2.1、下载,解压2.2、修改配置文件2.3、启动zk服务1、 CDH版本hadoop重新编译1.1为什么要编译hadoop由于CDH的所有安装包版本都给出了对应的软件版本,一般情况下是不需要自己进行编译的,但是由于cdh给出的hadoop的安装包没有提供带C程序访问的接口,所以我们在使用本地库(本地库可以用来做压缩,以及支持C程序等等)的时候就会出问题。

2021-11-11 15:56:08 615

原创 2021-11-09第三种:NameNode高可用与ResourceManager单节点架构模型

hadoop的架构模型hadoop的架构模型(1.x,2.x的各种架构模型介绍)1.1 1.x的版本架构模型介绍2.2 2.x的版本架构模型介绍hadoop的架构模型(1.x,2.x的各种架构模型介绍)1.1 1.x的版本架构模型介绍文件系统核心模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据数据计算核心模块:JobT

2021-11-09 23:03:59 467

原创 2021-11-04

zookeeper的shell操作1.1、zookeeper的shell操作1.1.1、客户端连接1.1.2、shell操作2.1、zookeeper的数据模型2.1.1、节点类型2.2、zookeeper的javaAPI2.2.1、节点的操作1.1、zookeeper的shell操作1.1.1、客户端连接运行 zkCli.sh –server ip 进入命令行工具。1.1.2、shell操作创建节点create [-s] [-e] path data acl其中,-s 或-e 分别指定

2021-11-04 12:50:51 981

原创 linux的shell编程

linux的shell编程1.linux的shell编程1.1 shell 变量1.2 shell 运算符2.1流程控制2.1.2for循环2.1.3 while语法2.1.4case语句1.linux的shell编程Shell 是一个用 C 语言编写的程序, 通过 Shell 用户可以访问操作系统内核服务。它类似于 DOS 下的 command 和后来的 cmd.exe。Shell 既是一种命令语言,又是一种程序设计语言。Shell script 是一种为 shell 编写的脚本程序。 Shel

2021-11-02 10:55:13 541

原创 linux基础增强命令

linux基础增强1 linux基础增强1.1查找命令1.2 find命令1.3Locate命令1.4whereis命令1.5which命令2.1 用户与用户组2.2 sudo使用2.3 linux的权限管理1 linux基础增强1.1查找命令grep命令grep 命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。格式: grep [option] pattern [file]可使用 —help 查看更多参数。使用实例:ps -ef | grep sshd

2021-10-31 14:43:18 325

原创 2021-10-29

Maven的概述1 maven的概念2 Maven的作用4.仓库中存放的内容5 maven的坐标1 maven的概念 Maven是项目进行模型抽象,充分运用面向对象的思想,Maven可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具。Maven 除了以程序构建能力为特色之外,还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性,所以常常用两三行 Maven 构建脚本就可以构建简单的项目。说白了: ==Maven是由Apache开发的一个工具。==用来管理jav

2021-10-29 22:03:56 56

原创 字节缓冲流、转换流概述

字节缓冲流、转换流概述1.1字节缓冲区流的概述和使用1.1.1 字节缓冲流的作用是?1.1.2 为什么字节缓冲流的构造方法需要传入一个OutputStream2.1 转换流出现的原因2.1.1字节流读数据可能出现问题2.2 编码表概述和常见编码表2.2.1 什么是编码表?2.2.2 乱码问题2.3 String类中的编码和解码问题2.3.1 方法摘要&编码和解码3.3字符缓冲区流的概述3.4 字符缓冲区流的特殊功能1.1字节缓冲区流的概述和使用1.1.1 字节缓冲流的作用是?字节流一次读写一

2021-10-24 14:29:54 82

原创 异常类和File类介绍

异常类和File类介绍1.1 异常的概述和继承体系1.1.1 异常详解1.3异常处理方案try_catch1.3.1 try..catch的格式和执行流程为1.3.2 捕获异常后, 如何处理?1.3.3 try..catch处理方式&JVM的默认处理方式有什么不同2.1 File类的概述和构造方法2.1.1 File类的概述2.1.2 File类的构造方法2.2.3 案例代码2.2 File类的创建功能2.2.1 方法摘要2.3 File类的判断和获取功能2.3.1 方法摘要(以下方法是File类

2021-10-22 20:14:51 139

原创 Set集合特点和HashSet集合类以及Map集合和HashMap集合的相关案例

Set集合特点和HashSet集合类以及Map集合和HashMap集合的相关案例1.1 Set集合的特点1.1.1 案例代码一:1.2 HashSet集合类1.2.1 HashSet保证元素唯一性的原理1.2.2 HashSet集合的练习存储自定义对象保证元素唯一性1.2.2.1 案例代码:1.2.2.2 案例代码:2.1 创建Map集合对象并添加元素2.2 Map集合的成员方法2.2.1 案例代码:2.3 Map集合的遍历之键值对对象找键和值2.3.1 案例代码:3.1 集合的嵌套练习之ArrayList

2021-10-20 14:45:45 99

原创 Collection集合,List集合,数据类型和ArrayList集合

Collection集合,List集合,数据类型和ArrayList集合1.1 集合的概述1.2 Collection集合1.2.1 创建Collection集合对象并添加元素1.2.2 Collection集合的成员方法1.2.3 Collection集合的遍历2.1 List集合的特点2.2 List集合的特有成员方法1.1 集合的概述集合是一个容器,是用来存储和获取数据的.1.2 Collection集合1.2.1 创建Collection集合对象并添加元素Collection:是单

2021-10-18 10:05:19 314

原创 java常用API数组冒泡排序,Arrays工具类,包装类,Date,SimpleFormat相关

java常用API数组冒泡排序,Arrays工具类,包装类,Date,SimpleFormat相关1.1 数组的冒泡排序1.1.1 数组排序之冒泡排序原理图解1.2 Arrays工具类1.2.1 Arrays类的概述和使用1.2.2 Arrays类中构造方法的问题2.1 基本类型包装类的概述2.2 Integer类的概述和构造方法2.3 int类型和String类型的相互转换3.1 Date类的概述和构造方法3.2 Date类的成员方法getTime()和setTime()3.3 SimpleDateFor

2021-10-17 13:46:05 283

原创 java常用API-object,Scanner,String,StringBuilder相关

API的相关概述及使用1.1 API概念1.2 快速使用API步骤:2.1 Scanner类2.1.1 Scanner类作用2.2 Object类2.2.1 Object类作用2.2.2 Object类的toString()方法3.1 String类概述3.1.1 String类概述3.1.2 String类的构造方法4.1 StringBuilder类概述4.1.1 +=拼接字符串耗费内存原因:4.1.2 StringBuilder类的常用方法1.1 API概念API(Application Pro

2021-10-17 12:02:42 86

原创 java面向对象

1.1 final关键字的概述及特点• final关键字是最终的意思,可以修饰类,成员变量,成员方法。– 修饰类,类不能被继承– 修饰变量,变量就变成了常量,只能被赋值一次– 修饰方法,方法不能被重写1.2 static关键字的概述及特点1.2.1 静态的概述当在定义类的时候,类中都会有相应的属性和方法。而属性和方法都是通过创建本类对象调用的。当在调用对象的某个方法时,这个方法没有访问到对象的特有数据时,方法创建这个对象有些多余。可是不创建对象,方法又调用不了,这时就会想,那么我们能不能不创建

2021-10-14 17:09:13 56

原创 面向对象的学习

1.1 继承的概述多个类中存在相同的属性和行为时,将这些内容抽取到单独一个类中,那么多个类无需在定义这些属性和行为,只要继承那个类即可。单独的这个类称为父类,基类或者叫超类,多个类可以称为子类或者派生类。有了继承以后,我们定义一个类的时候,可以在一个已经存在的类的基础上,还可以定义自己的新成员。1.1.2 实现继承的方式通过extends关键字可以实现类与类的继承格式:public class 子类名 extends 父类名{}1.1.3 案例代码一下面展示一些 内联代码片。packag

2021-10-14 09:51:01 40

原创 面向对象概述

1.1 类与对象案例:下面展示一些 内联代码片。package com.itheima_02;/* * 类的定义:类是用来描述现实世界事物的 * 事物: * 属性 * 行为 * 类如何和事物进行对应的呢? * 类: * 成员变量 * 成员方法 * * 成员变量:和我们学习过的变量的定义是一样的,有两个小区别。 * 位置不同:类中,方法外 * 初始化值:成员变量不需要给初始化值也可以使用,因为它有默认值 * 成员方法:和我们学习过的方法的定义是

2021-10-12 16:15:32 24

原创 方法的概述和定义格式

1.1 方法的概述和定义格式1.1.2 方法定义及格式简单的说:方法就是完成特定功能的代码块在很多语言里面都有函数的定义 , 函数在Java中被称为方法格式:修饰符 返回值类型 方法名(参数类型 参数名1,参数类型 参数名2…) {函数体;return 返回值;}1.1.3 方法格式解释下面展示一些 内联代码片。/* * 方法:其实就是完成特定功能的代码块 * * 定义格式: * 修饰符 返回值类型 方法名(参数类型 参数名1,参数类型 参数名2,...) { *

2021-10-11 21:07:53 138

原创 数组内存结构

下面展示一些 内联代码片。1数组内存结构 1.1.1 JVM内存划分 Java 程序在运行时,需要在内存中的分配空间。为了提高运算效率,就对空间进行了不同区域的划分,因为每一片区域都有特定的处理数据方式和内存管理方式。栈 存储局部变量堆 存储new出来的东西方法区 (面向对象进阶讲)本地方法区 (和系统相关)寄存器 (给CPU使用)下面展示一些 内联代码片。package com.itheima_02;/* * 定义一个数组,输出数组名及元素。然后给数组中的元素赋值,再次输出数组

2021-10-09 22:25:28 275

原创 循环结构及案例

1 for循环的格式及基本使用1.1 for循环语句格式:for(初始化语句;判断条件语句;控制条件语句) {循环体语句;}下面展示一些 内联代码片。package com.itheima;/* * for循环语句的格式: * for(初始化语句;判断条件语句;控制条件语句) { * 循环体语句; * } * * 执行流程: * A:执行初始化语句 * B:执行判断条件语句,看其结果是true还是false * 如果是false,就结束循环 *

2021-10-09 11:47:46 531

原创 if语句和switch语句

if语句和switch语句if语句及案例:下面展示一些 内联代码片。if 语句:之格式3 及示例package com.itheima;/**格式3:* if (关系表达式1){* 语句体1;* }else if (关系表达式2){* 语句体2;* };else if (关系表达式2){* 语句体3;* }* ……* else{* 语句体n+1;* }** 执行流程: * A:计算关系表达式1的值

2021-09-30 21:32:41 243

原创 常量、变量、数据类型

1.常量常量:在程序执行过程中,其值不可以发生改变的量。分类: A:字符串常量 "HelloWorld" B:整数常量 12,23 C:小数常量 12.23 D:字符常量 'a','0' E:布尔常量 true,false F:空常量 null(后面讲)public class ConstantDemo {public static void main(String[] args) {

2021-09-29 17:19:11 83

原创 2021-09-28

初识java1.1 Java语言发展史詹姆斯·高斯林(James Gosling)1977年获得了加拿大卡尔加里大学计算机科学学士学位,1983年获得了美国卡内基梅隆大学计算机科学博士学位,毕业后到IBM工作,设计IBM第一代工作站NeWS系统,但不受重视。后来转至Sun公司,1990年,与Patrick,Naughton和Mike Sheridan等人合作“绿色计划”,后来发展一套语言叫做“Oak”,后改名为Java。SUN(Stanford University Network,斯坦福大学网络公司

2021-09-28 23:12:32 49

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除