自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(299)
  • 资源 (1)
  • 收藏
  • 关注

原创 Streampark 入门到生产实践

实时即未来,在实时处理流域和是一个伟大的进步,尤其是被普遍认为是下一代大数据流计算引擎, 我们在使用FlinkSpark时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力诞生了今天的框架 ——StreamPark, 项目的初衷是 —— 让流处理更简单, 使用StreamPark开发流处理作业, 可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamPark。

2024-03-18 11:44:27 98

原创 sqoop 抽数报错com.mysql.cj.exceptions.WrongArgumentException: HOUR_OF_DAY: 2 -> 3

【代码】sqoop 抽数报错com.mysql.cj.exceptions.WrongArgumentException: HOUR_OF_DAY: 2 -> 3。

2023-10-31 17:22:13 340

原创 python 入门到精通(二)

python 的条件判断

2023-09-10 15:05:14 179

原创 python 入门到精通(一)

python 基础介绍和基本数据类型实践

2023-09-09 13:36:00 345

原创 辉哥带你学hive第十讲--实战需求(一) 数据准备

hive 中级sql 练习,并且配套sql讲解视频

2023-07-08 23:16:20 146

原创 辉哥带你学hive第八讲

根据用户自定义函数类别分为以下三种:一进一出。用户自定义聚合函数,多进一出。类似于:count/max/min用户自定义表生成函数,一进多出。如lateral view explode()

2023-07-02 14:30:18 112

原创 辉哥带你学hive第四讲--实战需求(一)

hive实战一

2023-05-15 23:48:24 326 2

原创 辉哥带你学hive第一讲 hive基本介绍以及环境搭建

hive基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表。Hive是一个Hadoop客户端,用于将HQL(Hive SQL)转化成MapReduce程序。其中Hive中每张表的数据存储在HDFS,Hive分析数据底层的实现是MapReduce(也可配置为Spark或者Tez)并且执行程序运行在yarn上。

2023-05-11 22:00:56 610

原创 Flink 1.14从简单到源码第三讲

Flink 简单到源码第三讲

2023-02-12 18:56:52 358

原创 辉哥带你学hive第三讲

Hive的函数

2023-01-01 18:08:30 216

原创 辉哥带你学hive第二讲

hive 基本概念

2022-12-26 16:24:57 305

原创 离线数据仓库第二讲

数据仓库建模1.ODS层建模方法2.DIM层和DWD层1.ODS层建模方法1.HDFS用户行为数据创建一个表日志表,里面只需要一个字段就行了。这个表然后就是按天分区。每天日志采集2.HDFS业务数据1.同步那些表就建立那些表2.表结构,需要哪些同步那些表的字段。按天进行分区。2.DIM层和DWD层DIM层DWD层需构建维度模型,一般采用星型模型,呈现的状态一般为星座模型。 DIM 对应的是维度表,DWD对应的是事实表维度建模一般按照以下四个步骤:选择业务过程→声明粒度→确认维度→确认事

2022-11-21 23:24:08 1482

原创 spark 调优((一)

spark 调优

2022-10-26 23:21:11 493

原创 SeaTunnel 入门到精通(一)

seatunnel 教程一

2022-08-21 22:32:00 2129

原创 StarkRocks 第二讲 基本操作(1)

starRocks 基本操作

2022-06-19 17:50:10 265

原创 StarkRocks 第一讲介绍

starRocks 介绍

2022-06-18 23:18:33 392

原创 第六讲:数据仓库搭建(四)

数据仓库4,dwt

2022-06-13 16:10:42 81

原创 第五讲:数据仓库搭建(三)

dws数据仓库表构建

2022-06-09 11:29:04 171

原创 离线数据仓库第四讲

数据仓库搭建

2022-06-06 23:49:15 91

原创 离线数据仓库第三讲

dim维度表建立

2022-06-06 09:41:20 329

原创 Flink Table API & SQL(二)

1.Join Temporal Tables(Batch/Stream)Temporal Tables 是随时间变化而变化的表。• Temporal Table 提供访问指定时间点的 temporal table 版本的功能。• 主要用于维表关联• 仅支持 Blink plannerSELECT o.amout,o.currency,r.rate,o.amount * r.rateFROM Orders AS o JOIN LatestRatesFOR SYSTEM_TIME AS OF

2022-05-31 17:02:39 95

原创 Flink Table API & SQL(一)

1.Table API & SQL 核心概念1.1两种不同的计划器1.flink计划器,blink计划器。flink 计划器会讲分别转化成dataset和datastream的来实现批流一体。blink会讲批处理当作流处理的一种特例,全部转化成datastream。Blink 计划器会将多 sink(multiple-sinks)优化成一张有向无环图(DAG),TableEnvironment 和 StreamTableEnvironment 都支持该特性。旧计划器总是将每个sink都优

2022-05-29 20:53:15 101

原创 Flink 监控与运维

Flink 监控与运维1.metric1.2MetricGroup1.3 自定义 Counter1.4 自定义 Counter1.4 自定义 Gauge1.5 JMXReporter 应用2.Flink RestAPI 介绍与使用3.Checkpoint 的监控与优化3.1checkpoint 指标4.反压监控与原理5.Flink内存配置与调优1.metric<identifier, measurement>标识符-度量值Metric 类型:Counter计数器Gauge最简单的

2022-05-10 11:42:30 469

原创 基于flink实时数据仓库-第二讲flinkcdc

1.Flink CDC1.CDC 是什么CDC是Change Data Capture(变更数据获取),CDC是Change Data Capture(变更数据获取)。2. CDC的种类CDC主要分为基于查询和基于Binlog两种方式,我们主要了解一下这两种之间的区别:sqoop 查询数据sql 获取数据。3.Flink-CDC这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源,开源地址:https://githu

2022-03-28 17:17:20 2886

原创 基于flink实时数据仓库-第一讲基本情况介绍

实时数据仓库1、电商实时数仓分层介绍1.1 普通实时计算和实时数据仓库比较1.2 实时数据仓库,项目分层2.实时需求概述2.1离线计算和实时计算比较2.2 实时需求种类3.统计架构分析3.1离线架构3.2 实时架构1、电商实时数仓分层介绍1.1 普通实时计算和实时数据仓库比较普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。时效性好,但是弊端是中间结果没有沉淀下来,复用性差。实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。1.2 实时

2022-03-22 15:57:52 2648

原创 clickhouse 第一讲基础概念

clickhouse基础概念一.clickhouse 入门1.1 介绍1.2 特点1.2.1 列式存储1.2 多样引擎1.3 高吞吐能力1.4. 数据分区和线程并行1.5 不适合join二、数据类型2.1 整型2.2浮点型2.3布尔型2.4Decimal 型2.5 字符串2.6枚举类型2.7时间类型2.8 数组三、表引擎3.1TinyLog3.2 Memory3.3 MergeTree3.4 partition by 分区(可选)3.5数据在本地磁盘存储的形式3.6 primary key 主键3.7 o

2022-03-19 21:04:00 2440

原创 flink实战二 -用户行为分析二

用户行为分析二1.实时统计热门商品2.实时统计热门页面3.实时统计PV/UV/GMV4.实时统计广告点击5. 实时风控--实时黑名单1.实时统计热门商品需求:每隔5分钟统计最近1个小时热门商品实现思路:1.读取数据2.添加水位线,防止乱序。3.过滤用户行为4.按商品分组5.统计窗口数据:每个商品在当前窗口中的次数,6.按照窗口分组–每个窗口的topN7.商品ton的排序–每个窗口的topN8.打印输出2.实时统计热门页面3.实时统计PV/UV/GMV4.实时统计广告点击5.

2022-03-15 10:57:06 3881

原创 flink 面试题-1

Flink面试题1.简单介绍一下 Flink2.spark streaming与flink对比1.1 架构模型1.2 运行模型1.3 容错机制1.4 时间机制1.5任务调度原理3. Flink集群有哪些角色?各自有什么作用?4. Flink的并行度了解吗?Flink的并行度设置是怎样的?5.Flink的Slot和parallelism有什么区别?6.Flink有没有重启策略?说说有哪几种?7.用过Flink中的分布式缓存吗?如何使用?8.说说Flink中的广播变量,使用时需要注意什么?9.说说Flink中的

2022-03-14 21:17:50 1824

原创 第四讲-hbase的常见面试题和布隆过滤器

布隆过滤器1.布隆过滤器2.1.布隆过滤器它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。布隆过滤器判断一个元素不在,肯定不在判断元素在的话,再数据库在进行查询。实现原理:布隆过滤器的实现原理和hash表的数据原理差不多。数据通过hash函数将数据映射到某个地址。如果有冲突会( 拉链法、开放地址法)出处理数据冲突的。布隆过滤器主要是数据通过通过映射函数映射到多个二进制位上。当某个数据映射到多个二进制位有一个不为1,说明不存在。数据通过

2022-03-13 23:42:32 2252

原创 Hbase 基础第三讲底层原理

hbase 底层原理1.hbase 架构2.物理存储2.1整体物理结构1.hbase 架构Client职责HBase有两张特殊表:.META.:记录了用户所有表拆分出来的的Region映射信息,.META.可以有多个Regoin-ROOT-:记录了.META.表的Region信息,-ROOT-只有一个Region,无论如何不会分裂。ZooKeeper职责1.ZooKeeper为HBase提供Failover机制,选举Master,避免单点Master单点故障问题2.存储所有Region的寻

2022-03-13 22:46:26 2285

原创 Hbase 基础第二讲-javaApi

java API1.java api 操作hbase1.java api 操作hbasepublic class HbaseDemoTest { // 声明静态配置 static Configuration conf = null; private static final String ZK_CONNECT_STR = "bigdata02:2181,bigdata03:2181,bigdata04:2181,bigdata05:2181";

2022-03-11 16:56:12 777

原创 Hbase 基础第一讲-基本原理

基本原理1.Hbase概述1.1 什么是Hbase?1.2 hbase 特点1.3 Hbase 核心物理概念1.Hbase概述1.1 什么是Hbase?HBase 是建立在 HDFS之上,高可靠性、高性能、列存储、多版本的 NoSQL 的分布式数据存储系统,实现对大型数据的实时、随机的读写访问。1.2 hbase 特点库:1、高并发,解决海量数据集的随机实时增删改查2、HBase本质依然是Key-Value数据库,不支持join等复杂操作3、不支持复杂的事务,只支持行级事务4、HBas

2022-03-11 09:18:35 145

原创 Hive第三讲 调优

hive 调优1.调优概述1、Hive的建表设计层面1.1利用分区表优化1.2 利用分桶表优化1.3 选择合适的文件存储格式1.4 选择合适的压缩格式2、HQL语法和运行参数层面2.1.查看Hive执行计划2.2列裁剪2.3 分区裁剪2.4 谓词下推1.调优概述Hive调优的作用:在保证业务结果不变的前提下,降低资源的使用量,减少任务的执行时间。1、Hive的建表设计层面1.1利用分区表优化当一个 Hive 表的查询大多数情况下,会根据某一个字段进行筛选时,那么非常适合创建为分区表,该字段即为分

2022-03-02 22:40:37 470

原创 python 第7讲 面向对象

面向对象1.初识面向对象1.1 对象和类1.2 面向对象三大特征1.31.初识面向对象1.1 对象和类类是模型,确定对象将会拥有特征(属性)和行为(方法)对象是类的实例1.2 面向对象三大特征封装、继承、多态将类的某些信息进行隐藏,不允许程序直接访问,通过方法提供操作。继承:抽取相同的属性和方法。子类进行继承。类与类关系。A is a B 猫是动物,????是动物多态:不同对象对同一个消息不同响应必要条件:1.继承关系 2.父类引用指向子类对象。1.3...

2022-02-16 15:55:53 154

原创 python数据结构-链表

链表1.链表和链表概述1.1 头插入法和尾插入法构建单链表1.2 链表插入1.3 链表删除1.4 链表查询1.链表和链表概述链表是由一系列节点组成的元素集合。每个节点包含两个部分。数据域item和下一个指针域next。通过节点来连接。最终串成一个链表class Node(object): def __init__(self,item): self.item=item self.next=None构建单链表class Node: def __in

2022-02-15 11:36:37 675

原创 python 排序算法

排序算法1.冒泡排序1.冒泡排序思想:1.2冒泡排序改进版2 .选择排序1.冒泡排序1.冒泡排序思想:1.列表相邻的数,如果前面比后面大,交换两个数2.一趟排序完成后,则无序少一个,有序增加一个数。注意:趟数是因为最后一趟不需要排。这需要n-1趟。每趟需要排的数是n-1-i (i趟)代码实现:def bubble_sort(li): for i in range(len(li)-1): # 第n-1趟 for j in range(len(li)-i-1): #无序的

2022-02-13 00:25:11 719

原创 kafka 基础知识 第二讲

kafka 基础知识1.消费者api1.消费者概念1.消费者api1.消费者概念1)每个消费者属于一个消费者组。topic 的一个分区只会给一个消费者组下的一个消费者2)如果要实现一个广播的效果,那只需要不同的group_id去消费。3)如果consumer.group中某个消费者挂了,会自动把分配给他的分区分配其他的消费者。等它重启后再归还给它。...

2022-02-12 17:57:41 907

原创 kafka 基础知识 第三讲

kafka 基础知识第三讲1.数据可靠性和一致性2.kafka如何实现幂等性2.1 幂等性解决的问题2.2 如何操作开启kafka幂等性2.2 kafka 幂等性实现机制3.kafka 事务3.1 kafka 事务应用场景3.2 事务api4. kafka的高性能高可用原理1.数据可靠性和一致性数据可靠性-不丢失一致性-读写一致性可靠性:1.topic 分区副本:kafka的分区多副本是kafka的可靠性保证的核心,把消息写入到多个副本kafka某个broker挂了也保证可靠性2.produce

2022-02-12 17:43:24 731

原创 kafka 基础知识 第一讲

kafka 基础知识1.kafka 概述1.1 消息队列的两种模式1.2 kafka 特点1.3 kafka 架构1.kafka 概述kafka 是一个分布式的中间件,支持多分区、多副本、多订阅者,基于zookeeper协调的分布式消息系统。1.1 消息队列的两种模式1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)消息生产者生产消息发送到Queue中, 然后消息消费者从Queue中取出并且消费消息。2)发布/订阅模式(一对多,消费者消费数据之后不会清除消息)消息生产者(发布)将

2022-02-07 22:50:25 1228

原创 设计模式第八讲-单例模式

单例模式1.基本介绍1.1定义与类型1.2 单例-适用场景1.3 优点和缺点1.4 多线程debug1.5 懒汉式实现和多线程问题处理1.6 饿汉式:1.7 序列化和反序列化破坏单例2.JDK 源码实战3.总结与思考1.基本介绍1.1定义与类型定义:保证一个类仅有一个实例,并提供一个全局访问点类型:创建型1.2 单例-适用场景想确保任何情况下都绝对只有一个实例单服务-计数器 线程池-设计 -链接池1.3 优点和缺点在内存中只有一个实例,减少内存开销可以避免资源的多重占用严格控制访问

2022-02-06 22:00:06 270

docker入门与实战

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口

2019-01-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除