大数据学习爱好者-CSDN博客

原创 Streampark 入门到生产实践

实时即未来,在实时处理流域和是一个伟大的进步,尤其是被普遍认为是下一代大数据流计算引擎, 我们在使用FlinkSpark时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力诞生了今天的框架 ——StreamPark, 项目的初衷是 —— 让流处理更简单, 使用StreamPark开发流处理作业, 可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamPark。

2024-03-18 11:44:27 98

原创 sqoop 抽数报错com.mysql.cj.exceptions.WrongArgumentException: HOUR_OF_DAY: 2 -＞ 3

【代码】sqoop 抽数报错com.mysql.cj.exceptions.WrongArgumentException: HOUR_OF_DAY: 2 -＞ 3。

2023-10-31 17:22:13 340

原创 python 入门到精通（二）

python 的条件判断

2023-09-10 15:05:14 179

原创 python 入门到精通（一）

python 基础介绍和基本数据类型实践

2023-09-09 13:36:00 345

原创辉哥带你学hive第十讲--实战需求(一) 数据准备

hive 中级sql 练习，并且配套sql讲解视频

2023-07-08 23:16:20 146

原创辉哥带你学hive第八讲

根据用户自定义函数类别分为以下三种：一进一出。用户自定义聚合函数，多进一出。类似于：count/max/min用户自定义表生成函数，一进多出。如lateral view explode()

2023-07-02 14:30:18 112

原创辉哥带你学hive第四讲--实战需求(一)

hive实战一

2023-05-15 23:48:24 326 2

原创辉哥带你学hive第一讲 hive基本介绍以及环境搭建

hive基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表。Hive是一个Hadoop客户端，用于将HQL（Hive SQL）转化成MapReduce程序。其中Hive中每张表的数据存储在HDFS，Hive分析数据底层的实现是MapReduce（也可配置为Spark或者Tez）并且执行程序运行在yarn上。

2023-05-11 22:00:56 610

原创 Flink 1.14从简单到源码第三讲

Flink 简单到源码第三讲

2023-02-12 18:56:52 358

原创辉哥带你学hive第三讲

Hive的函数

2023-01-01 18:08:30 216

原创辉哥带你学hive第二讲

hive 基本概念

2022-12-26 16:24:57 305

原创离线数据仓库第二讲

数据仓库建模1.ODS层建模方法2.DIM层和DWD层1.ODS层建模方法1.HDFS用户行为数据创建一个表日志表，里面只需要一个字段就行了。这个表然后就是按天分区。每天日志采集2.HDFS业务数据1.同步那些表就建立那些表2.表结构，需要哪些同步那些表的字段。按天进行分区。2.DIM层和DWD层DIM层DWD层需构建维度模型，一般采用星型模型，呈现的状态一般为星座模型。 DIM 对应的是维度表，DWD对应的是事实表维度建模一般按照以下四个步骤：选择业务过程→声明粒度→确认维度→确认事

2022-11-21 23:24:08 1482

原创 spark 调优((一)

spark 调优

2022-10-26 23:21:11 493

原创 SeaTunnel 入门到精通(一)

seatunnel 教程一

2022-08-21 22:32:00 2129

原创 StarkRocks 第二讲基本操作(1)

starRocks 基本操作

2022-06-19 17:50:10 265

原创 StarkRocks 第一讲介绍

starRocks 介绍

2022-06-18 23:18:33 392

原创第六讲:数据仓库搭建(四)

数据仓库4，dwt

2022-06-13 16:10:42 81

原创第五讲:数据仓库搭建(三)

dws数据仓库表构建

2022-06-09 11:29:04 171

原创离线数据仓库第四讲

数据仓库搭建

2022-06-06 23:49:15 91

原创离线数据仓库第三讲

dim维度表建立

2022-06-06 09:41:20 329

原创 Flink Table API & SQL(二)

1.Join Temporal Tables（Batch/Stream）Temporal Tables 是随时间变化而变化的表。• Temporal Table 提供访问指定时间点的 temporal table 版本的功能。• 主要用于维表关联• 仅支持 Blink plannerSELECT o.amout,o.currency,r.rate,o.amount * r.rateFROM Orders AS o JOIN LatestRatesFOR SYSTEM_TIME AS OF

2022-05-31 17:02:39 95

原创 Flink Table API & SQL(一)

1.Table API & SQL 核心概念1.1两种不同的计划器1.flink计划器，blink计划器。flink 计划器会讲分别转化成dataset和datastream的来实现批流一体。blink会讲批处理当作流处理的一种特例，全部转化成datastream。Blink 计划器会将多 sink（multiple-sinks）优化成一张有向无环图（DAG），TableEnvironment 和 StreamTableEnvironment 都支持该特性。旧计划器总是将每个sink都优

2022-05-29 20:53:15 101

原创 Flink 监控与运维

Flink 监控与运维1.metric1.2MetricGroup1.3 自定义 Counter1.4 自定义 Counter1.4 自定义 Gauge1.5 JMXReporter 应用2.Flink RestAPI 介绍与使用3.Checkpoint 的监控与优化3.1checkpoint 指标4.反压监控与原理5.Flink内存配置与调优1.metric<identifier, measurement>标识符-度量值Metric 类型：Counter计数器Gauge最简单的

2022-05-10 11:42:30 469

原创基于flink实时数据仓库-第二讲flinkcdc

1.Flink CDC1.CDC 是什么CDC是Change Data Capture(变更数据获取)，CDC是Change Data Capture(变更数据获取)。2. CDC的种类CDC主要分为基于查询和基于Binlog两种方式，我们主要了解一下这两种之间的区别：sqoop 查询数据sql 获取数据。3.Flink-CDC这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源，开源地址：https://githu

2022-03-28 17:17:20 2886

原创基于flink实时数据仓库-第一讲基本情况介绍

实时数据仓库1、电商实时数仓分层介绍1.1 普通实时计算和实时数据仓库比较1.2 实时数据仓库，项目分层2.实时需求概述2.1离线计算和实时计算比较2.2 实时需求种类3.统计架构分析3.1离线架构3.2 实时架构1、电商实时数仓分层介绍1.1 普通实时计算和实时数据仓库比较普通的实时计算优先考虑时效性，所以从数据源采集经过实时计算直接得到结果。时效性好，但是弊端是中间结果没有沉淀下来，复用性差。实时数仓基于一定的数据仓库理念，对数据处理流程进行规划、分层，目的是提高数据的复用性。1.2 实时

2022-03-22 15:57:52 2648

原创 clickhouse 第一讲基础概念

clickhouse基础概念一.clickhouse 入门1.1 介绍1.2 特点1.2.1 列式存储1.2 多样引擎1.3 高吞吐能力1.4. 数据分区和线程并行1.5 不适合join二、数据类型2.1 整型2.2浮点型2.3布尔型2.4Decimal 型2.5 字符串2.6枚举类型2.7时间类型2.8 数组三、表引擎3.1TinyLog3.2 Memory3.3 MergeTree3.4 partition by 分区(可选)3.5数据在本地磁盘存储的形式3.6 primary key 主键3.7 o

2022-03-19 21:04:00 2440

原创 flink实战二 -用户行为分析二

用户行为分析二1.实时统计热门商品2.实时统计热门页面3.实时统计PV/UV/GMV4.实时统计广告点击5. 实时风控--实时黑名单1.实时统计热门商品需求:每隔5分钟统计最近1个小时热门商品实现思路:1.读取数据2.添加水位线，防止乱序。3.过滤用户行为4.按商品分组5.统计窗口数据:每个商品在当前窗口中的次数，6.按照窗口分组–每个窗口的topN7.商品ton的排序–每个窗口的topN8.打印输出2.实时统计热门页面3.实时统计PV/UV/GMV4.实时统计广告点击5.

2022-03-15 10:57:06 3881

原创 flink 面试题-1

Flink面试题1.简单介绍一下 Flink2.spark streaming与flink对比1.1 架构模型1.2 运行模型1.3 容错机制1.4 时间机制1.5任务调度原理3. Flink集群有哪些角色？各自有什么作用？4. Flink的并行度了解吗？Flink的并行度设置是怎样的？5.Flink的Slot和parallelism有什么区别？6.Flink有没有重启策略？说说有哪几种？7.用过Flink中的分布式缓存吗？如何使用？8.说说Flink中的广播变量，使用时需要注意什么？9.说说Flink中的

2022-03-14 21:17:50 1824

docker入门与实战

空空如也