自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据技术派

代码改变世界,代码改变命运! | 微信搜索:大数据技术派

  • 博客(448)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

原创 数仓建模—宽表的设计

宽表的设计为什么要建设宽表宽表的好处和不足如何设计宽表总结宽表的设计其实宽表是数仓里面非常重要的一块,前面我们介绍过了维度表事实表,今天我们介绍一下宽表,前面我们说过了数仓是分层的,这是技......

2021-12-02 08:40:00 3007 1

原创 Flink计算pv和uv的通用方法

PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-...

2021-11-01 08:30:00 6236 14

转载 数仓建模分层理论

分层建设理论 简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构...

2020-12-12 10:58:40 1810

原创 hadoop 数据迁移

数据迁移使用场景冷热集群数据分类存储,详见上述描述.集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等.数据的准实时同步.数据的准实时同步与上一点的不同在于第二点可以一次性操作解决,而准实时同步需要定期同步,而且要做到周期内数据基本完全一......

2018-11-18 13:19:36 5246

原创 clickhouse使用心得

clickhouse目前用在实时BI后台,只要数据稳定落库了,出报表很快,临时查询也很快,在使用过程中,对它的一些优点和不足也是深有体会,这里总结一下,不能做到面面俱到,但尽可能详细的介绍实际应用需要注意的问题和应用技巧。我们是通过编写Flink程序,消费kafka数据,将数据清洗,扩充维度,然后落在clickhouse里面,半年以来,Flink程序很少出问题,数据落库也很稳定。对于clickho...

2024-03-18 17:37:29 908

原创 年底公司又裁员,我该何去何从

太突然了,周四的时候,领导突然跟我说把xxx同事的工作交接一下,我心想他这是被裁员了吗,我问了一下,领导说是的。其实年中时候,已经在陆陆续续裁员了,只是当时技术这边没咋动。然后中午吃饭时候我跟xxx同事聊,才知道这次裁员每个组都得出人,这是老板要求的,并且跟HR说最迟2月底前走人。他说第二天跟HR谈赔偿,后来得知,果然是N+1赔偿,毕竟是正规公司,肯定会妥善处理裁员的。周五他是最后一天,还有其它几...

2024-02-06 20:17:32 393

原创 我是如何找到老婆的

本文不聊技术,聊聊我跟我老婆从认识到现在的过程。我们是2022年过年的时候在网上通过soul认识的,当时是大年初一,我爷爷跟我说,现在过年了,大家回家父母都在催找对象,你也去网上找。听到这话,我懵了。说的轻巧,网购一个吗,但是我还是打开手机,下载了软件。开始在里面看别人发的帖子,太多了,我也发个帖子,没人理我,哈哈。然后我就加了个湖北的群,我进去做了自我介绍,还是没人理我,我发现群里30多个人,只...

2024-01-12 08:17:47 940

原创 Flink异步IO

本文讲解 Flink 用于访问外部数据存储的异步 I/O API。对于不熟悉异步或者事件驱动编程的用户,建议先储备一些关于 Future 和事件驱动编程的知识。本文代码gitee地址:https://gitee.com/ddxygq/BigDataTechnical/blob/main/Flink/src/main/java/operator/AsyncIODemo.java对于异步 I/O 操作...

2024-01-10 16:46:49 676

原创 我们领证啦

是的,我们领证了。在跟她经历2年时间的相处后,我们在今天2024年1月5日正式办理了结婚登记。其实这次还是有那么一点点波折的,因为外地人无法在上海直接领结婚证,但是这个日子是我爷爷请算命先生帮我们看好的,所以我们决定回到我的老家湖北十堰办理结婚登记。今天请了一天假,考虑到怕一些突发事件,因为我们同省不同市,我怕还要什么证明,我们选择了坐飞机,预留一些时间,比如资料不齐要补资料什么的。因为6点20的...

2024-01-05 19:00:02 372

原创 Flink窗口与WaterMark

本文目录窗口的生命周期Window Assigners窗口函数(Window Functions)TriggersEvictorsAllowed Lateness窗口窗口(Window)是处理无界流的关键所在。窗口可以将数据流装入大小有限的“桶”中,再对每个“桶”加以处理。本文的重心将放在 Flink 如何进行窗口操作以及开发者如何尽可能地利用 Flink 所提供的功能。下面展示了 Flink 窗...

2024-01-04 18:13:53 1061

原创 Flink状态容错savepoint与checkpoint

本文目录CheckpointsState BackendsSavepointsCheckpoints 与 Savepoints区别Flink可以保证exactly once,与其容错机制checkpoint和savepoint分不开的。本文主要讲解两者的机制与使用,同时会对比两者的区别。CheckpointsCheckpoint 使 Flink 的状态具有良好的容错性,通过 checkpoint ...

2024-01-02 09:52:11 1269

原创 再见,2023年

2023年终于是要过去了,这一年是令人难忘的一年。作为95后的我,可能跟大多数同龄人一样,度过了人生中真正意义上的经济萧条的一年。美联储加息,物价通胀,消费通缩,企业裁员,房贷压力等等,让我们真正感受到了什么叫大环境不好。但是我相信,这只是暂时的,明后年经济大概率会复苏。作为普通人的我们,能做的只是站稳脚下,不激进、不气馁,苟着,如果再能静下心来学习总结那更好。说起学习这件事情,其实真的挺难的。就...

2023-12-31 22:27:08 357

原创 Flink DataStream 编程模型

‍都说IT今年很难,越是在这个时候越是要坚持,相信总能看到黎明与曙光。这不我准备整理一下教程,对自己也是一个学习、总结的过程,我相信待到经济复苏,IT仍然是热门。本文是我的第一篇付费文章,这是个开篇纵览,后面会深入讲解Flink理论与开发,不限于Flink这一个组件,后面也会有Spark、Clickhouse等等,代码也会配套同步到Gitee上面(Gitee地址见文末)。‍目录Flink 架构流处...

2023-12-28 18:03:47 1284

转载 数仓工作中的常见问题及解决方案

数据仓库系列文章数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID来源数据社今天给大家分享一篇数仓工作思考的文章。 小 A 糊里糊涂进入一家网约车出现服务公司,负责公司数仓建设,试用期主要一项 K...

2023-07-07 13:56:04 315

转载 Flink CDC 2.4 正式发布,新增 Vitess 数据源,更多连接器支持增量快照,升级 Debezium 版本...

01Flink CDC 简介Flink CDC[1]是基于数据库的日志 CDC 技术,实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态,Flink CDC 可以高效实现海量数据的实时集成。作为新一代的实时数据集成框架,Flink CDC 具有全增量一体化、无锁读取、并行读取、表结构变更自动同步、分布式架构等技术优势,同时社区提供了完善的中英文文档支持[...

2023-06-30 11:31:04 339

转载 数据血缘落地实践

数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID本文来自PowerData李奇峰‍在复杂的社会分工协作体系中,我们需要明确个人定位,才能更好的发挥价值,数据也是一样,于是,数据血缘应运而生。今天这篇文章会全方位的...

2023-06-29 11:37:32 970

转载 ClickHouse主键索引最佳实践

在本文中,我们将深入研究ClickHouse索引。我们将对此进行详细说明和讨论:ClickHouse的索引与传统的关系数据库有何不同ClickHouse是怎样构建和使用主键稀疏索引的ClickHouse索引的最佳实践这篇文章主要关注稀疏索引,clickhouse主键使用的就是稀疏索引。数据集在本文中,我们将使用一个匿名的web流量数据集。我们将使用样本数据集中的887万行(事件)的子集。未压缩的数...

2023-04-28 08:40:42 1212 1

原创 ClickHouse MergeTree引擎

Clickhouse 中最强大的表引擎当属 MergeTree (合并树)引擎及该系列(*MergeTree)中的其他引擎。MergeTree 系列的引擎被设计用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入,数据片段在后台按照一定的规则进行合并。相比在插入时不断修改(重写)已存储的数据,这种策略会高效很多。这使得您能够创建一个小型的稀疏索引来加快数据检索。在相同数据集和相同结果集的情况下 ClickHouse 中某些带分区的操作会比普通操作更快。

2022-12-22 10:47:56 611

原创 Flink SQL管理平台flink-streaming-platform-web安装搭建

文章都在个人博客网站:https://www.ikeguang.com/ 同步,欢迎访问。最近看到有人在用flink sql的页面管理平台,大致看了下,尝试安装使用,比原生的flink sql界面确实好用多了,我们看下原生的,通过bin/sql-client.sh命令进入那个黑框,一只松鼠,对,就是那个界面。。。。这个工具不是Flink官方出的,是一个国内的小伙伴写的,Github地址:是不是觉得很强大,很多同学已经摩拳擦掌想试试了。

2022-12-02 09:51:18 773

原创 Flink SQL管理平台flink-streaming-platform-web安装搭建

公众号文章都在个人博客网站:https://www.ikeguang.com/ 同步,欢迎访问。最近看到有人在用flink sql的页面管理平台,大致看了下,尝试安装使用,比原生的flink sql界面确实好用多了,我们看下原生的,通过bin/sql-client.sh命令进入那个黑框,一只松鼠,对,就是那个界面。。。。这个工具不是Flink官方出的,是一个国内的小伙伴写的,Github地址:ht...

2022-12-01 18:31:21 41

原创 Flink同步Kafka数据到ClickHouse分布式表

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。列式数据库更适合于OLAP场景(对于大多数查询而言,处理速度至少提高了100倍),下面详细解释了原因(通过图片更有利于直观理解),图片来源于ClickHouse中文官方文档。行式列式我们使用Flink编写程序,消费kafka里面的主题数据,清洗、归一,写入到clickhouse里面去。

2022-12-01 09:42:23 434 1

转载 看完这篇, FlinkSQL 统统能整明白了

马云曾在一次演讲中说道:“未来的时代,将不再是 IT 时代,而是 DT 时代。”的确,这些年,越来越多开发,转行做大数据,又或通过大数据打造自己的竞争力(比如很多 Java 开发都会学学大数据),核心原因有三点:云计算技术的发展会降低功能开发的难度,很多开发会向低代码方向发展。大数据的价值空间正在逐渐形成,而围绕大数据进行价值化操作将是一个新的发展趋势,人才需求会更集中。大数据是人工智能的基础,但...

2022-10-24 08:47:06 461

原创 flink-cdc同步mysql数据到hive

本文首发于我的个人博客网站: ikeguang.com什么是CDC?CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。Flink_CDC1. 环境准备mysqlHiveflink ...

2022-09-30 10:35:07 1055

原创 flink-cdc同步mysql数据到hbase

本文首发于我的个人博客网站:https://www.ikeguang.com什么是CDC?CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。Flink_CDC1. 环境准备mysq...

2022-09-29 08:30:11 1229

原创 flink-cdc同步mysql数据到kafka

本文首发于我的个人博客网站:https://www.ikeguang.com什么是CDC?CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。Flink_CDC1. 环境准备mysq...

2022-09-24 09:56:23 61

原创 paddleocr安装与图片识别快速开始

很不幸,这个命令失败了,pip命令找不到这个版本,那么需要自己手动下载whl文件,安装了。点击旧版本安装,到这个页面,因为我们的cuda是10.0版本的,我们浏览器全局搜索,这里使用gpu版本,需要安装cuda,先查看cuda版本。下载后,解压,编译,安装,即可。到这里为止,已经成了90%。

2022-09-20 14:49:35 984

原创 flink-cdc实时增量同步mysql数据到hbase

CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。

2022-09-16 15:39:49 1760

原创 flink-cdc实时增量同步mysql数据到hive

CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。

2022-09-16 14:23:03 2655 2

原创 flink-cdc同步mysql数据到elasticsearch

数据仓库系列文章数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓—数据安全数仓—数据质量数仓—数仓建模和业务建模什么是CDC?CDC是(Change Data Capture 变更数据获取)的简称。核...

2022-09-16 08:40:57 223

原创 flink-cdc实时增量同步mysql数据到kafka

CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。

2022-09-14 18:34:56 2717

原创 flink-cdc实时增量同步mysql数据到elasticsearch

CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。

2022-09-13 17:45:45 2230 1

原创 mysql索引不生效

并不是索引越多越好,索引是一种以空间换取时间的方式,所以建立索引是要消耗一定的空间,况且在索引的维护上也会消耗资源。本文首发我的个人博客可以看出目前这张表是有3个索引的:我往这张表里面导入了10万多条记录。

2022-09-08 09:57:50 849

原创 logstash同步mysql数据到elasticsearch

更多知识,可以前往我的个人博客网站: 等待下一个秋-Python3. 新建索引4. 编辑配置文件,重要配置参数说明:参考资料

2022-08-03 14:06:50 443

原创 Python常用基础语法知识点大全

面向对象每一个变量都是一个类,有其自己的属性(attribute)与方法(method)。语法块用缩进(四个空格)而不是分号、花括号等符号来标记。因此,行首的空格不能随意书写。注释行内用“#”号,行间注释写在两组连续三单引号之间’’’续行行尾输入一个反斜杠加一个空格(’\‘),再换行。如果行尾语法明显未完成(比如以逗号结尾),可以直接续行。打印与输入函数print()与input(),注意print()的sep与end参数。变量变量复制的一个例子。使用。...

2022-07-21 13:50:02 698 1

原创 elasticsearch修改字段类型

1、原索引2、创建新索引3、同步数据4、删除原索引5、设置别名欢迎访问我的个人博客,听听我的故事。

2022-07-14 10:57:23 1645

原创 Python3 Linux 安装教程

去Python官网下载windows安装包,按照安装向导一直点击下一步即可,安装向导最好勾选,这样就不用手动添加环境变量了。安装比较复杂,需要安装一些系统依赖,再编译安装。1).下载源码tar包注:国内华为镜像下载会稳定快些,https://mirrors.huaweicloud.com/python/ , Python官方所有版本列表:https://www.python.org/downloads/ 。2). 解压解压完成后cd进入解压的目录。3). 编译、安装准备编译环境完成后,依次执行以

2022-07-13 10:11:08 404

原创 Python进程管理神器——Supervisor

Supervisor 是一款 Python 开发的进程管理系统,允许用户监视和控制 Linux 上的进程,能将一个普通命令行进程变为后台守护进程,异常退出时能自动重启详细介绍查阅:Supervisor IntroductionSupervisor 支持 Linux 和 Mac,不支持 Windows本文系统为: 安装完成后,在Python 下面会有这样几个文件。注:由于python bin目录是加入了环境变量,所以可以直接执行这几个文件。若报错 -bash: /etc/supervisord.co

2022-07-12 16:39:31 446

转载 我是Flink,现在"背"感压力,通俗易懂的讲解Flink背压机制

为什么你的Flink运行开始减慢了?为什么你试遍Flink参数还是无法解决?Flink背压常常发生在生产事故中,切记不要掉以轻心。不知为何,最近的我开始走下坡路了。。。1 故事的开始 此刻,我抬头看了一眼坐在对面的这个家伙: 格子衫、中等身材,略高的鼻梁下顶着一副黑框眼镜,微眯的目光透出丝丝倦意,正一眨不眨地盯着我看。我心里直犯嘀咕: 我又有什么好看的呢?不过是A君你用来...

2022-05-13 12:08:14 540 3

原创 数据仓库—开发规范

数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓—数据安全数仓—数据质量数仓—数仓建模和业务建模关注公众号:大数据技术派,回复: 资料,领取1024G资料。凡事无规矩不立,所以你会经常看到各种各样的规范,面对规范需要遵守,但是不能盲目,例

2022-05-13 09:12:26 243

转载 数据仓库—开发规范

数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓—数据安全数仓—数据质量数仓—数仓建模和业务建模凡事无规矩不立,所以你会经常看到各种各样的规范,面...

2022-05-05 08:40:00 1039

Zookeeper单机环境和集群环境搭建

Zookeeper单机环境和集群环境搭建

2023-06-15

虚拟机静态IP及多IP配置

虚拟机静态IP及多IP配置

2023-06-15

基于Zookeeper搭建Kafka高可用集群

基于Zookeeper搭建Kafka高可用集群

2023-06-15

基于Zookeeper搭建Hadoop高可用集群

基于Zookeeper搭建Hadoop高可用集群

2023-06-15

Storm集群环境搭建

Storm集群环境搭建

2023-06-15

Spark开发环境搭建

Spark开发环境搭建

2023-06-15

Spark集群环境搭建

Spark集群环境搭建

2023-06-15

Linux下Python安装

Linux下Python安装

2023-06-15

Linux下JDK安装

Linux下JDK安装

2023-06-15

Linux下Flume的安装

Linux下Flume的安装

2023-06-15

Linux环境下Hive的安装部署

Linux环境下Hive的安装部署

2023-06-15

HBase集群环境搭建

HBase集群环境搭建

2023-06-15

Hadoop集群环境搭建

Hadoop集群环境搭建

2023-06-15

docker 安装 wordpress,通过nginx反向代理,绑定域名,配置https

docker 安装 wordpress,通过nginx反向代理,绑定域名,配置https

2023-06-15

5分钟安装docker教程

5分钟安装docker教程

2023-06-15

2022年Python爬虫最全资料【6年爬虫经验精华总结】

【主要内容】 1. Python爬虫简介与环境安装 - Pythonn环境 - Selenium安装 - Python相关包 2. 基本库的使用 - 爬虫基本原理; - urlib库使用; - requests库使用; - bs4使用; - xpath和lxml使用; - selenium使用; - PyQuery使用; 3. scrapy基本使用 4. Scrapy redis实现分布式爬虫 5. 反爬措施 6. 手机APP爬虫 - 模拟器安装、fiddler、appium、mitmproxy安装; - 抓包工具的使用; - 移动端自动化控制; - 利用mitmproxy抓取存储数据; - apk脱壳反编译; references,学习资料分享 价格可谈,联系我:ddxygq。

2022-07-07

阿里巴巴java开发手册中文版

阿里巴巴java开发手册,高清原版,规范你的java开发习惯,让你的开发习惯与顶级互联网公对齐!

2018-09-02

hive-hbase-handler-1.2.1.jar

hive-hbase-handler-1.2.1.jar解决hive1.2.1,hbase不兼容情况!

2018-08-15

hadoop-2.7.2 windows7环境编译文件(winutils.exe、hadoop.dll)

windows环境下开发hadoop与本地运行,会报错,需要编译win环境hadoop工具 否则,可能会有两种错误: 1、Did not find winutils.exe: java.io.FileNotFoundException; 2、java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows 将里面的bin目录覆盖到hadoop对应bin目录即可

2018-03-07

用matlab编写猜字小游戏

用matlab编写猜字小游戏

2016-10-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除