自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 收藏
  • 关注

原创 windows安装conda环境,开发openai应用准备,运行第一个ai程序

作者开发第一个openai应用的环境准备、第一个openai程序调用成功,做个记录,希望帮助新来的你。第一次能成功运行的openai程序,狠开心。

2024-01-14 13:22:53 639

原创 hive3.1核心源码思路

对大数据几个核心组件的源码,记录一下生命线提示:以下是本篇文章正文内容,下面案例可供参考对核心流程,生命线进行追踪。学习源码:核心思路,抓大放小。把上面的生命线抓住,需要分析具体问题再细看。

2023-10-10 16:26:20 722

原创 实践数据湖iceberg 第四十二课(业界视野)业界的流批一体架构

了解iceberg的特性后,把视野放到行业,看看行业的湖仓一体架构上怎么的,作者主要分析:微视、爱奇艺、小米、网易严选的架构

2023-03-01 10:44:33 528

原创 实践数据湖iceberg 第四十一课 iceberg的实时性-业界的checkpoint配置

对iceberg checkpoint时间设置,有疑问,官方建议至少一分钟,行内各个大公司配多久呢?作者,专门学习各个公司在datafund上的分享以及网络文章,记录几个大公司的配置时间

2023-03-01 10:14:55 451

原创 flink-sql 中怎样使用hive function?

flink-sql自带的函数,比较少,可以引入hive的函数hive-connector内置了hive module,提供了hive自带的系统函数

2023-02-28 11:25:07 663 1

原创 实践数据湖iceberg 第四十课 iceberg的sql运维方式(合并文件、合并元数据、清理历史快照)

iceberg的sql化运维(合并文件、合并元数据、清理历史快照)

2023-02-21 10:35:57 1035

原创 flink内存管理, 增加Task内存大小,减少ManageMemory, network内存的方法

flink内存管理, 增加Task内存大小,减少ManageMemory, network内存的方法

2022-12-30 16:34:24 2970

原创 实践数据湖iceberg 第四十一课 测试维表更新场景

flink sql 中kafka 表join mysql表,发现无法检测到mysql表到新增、update, 百度多篇文章,写得好像可以解决问题,但又没有详细的解决方法步骤,故而写本人,期后来者以填坑。本文记录测试思路、流程与结论。测试结论:1.kaka做为驱动表源,可以通过lookup的方式,感知mysql维表的变化 2.iceberg表无法使用lookup方式,不能通过lookup感知mysql维表的变化

2022-11-21 11:33:00 699

原创 flink cdc 没有Replication client ,Replication slave权限,报错,处理

fiink cdc 的表用户,需要有Replication client ,Replication slave权限。授权命令如下: grant Replication client on *.* to ods_base@'%'; grant replication slave on *.* to ods_base@'%'; flush privileges;

2022-09-09 16:54:39 3317

原创 实践数据湖iceberg 第三十九课 清理快照前后数据文件变化分析

分析hive_iceberg_catalog.system.expire_snapshots()命令前后,数据湖表底层发生的变更

2022-08-05 16:58:05 1216

原创 实践数据湖iceberg 第三十八课 spark sql, Procedures语法进行数据治理(小文件合并,清理快照)

从kafka源写入iceberg,会生成大量的小文件,合并小文件,有代码的方式,spark3结合iceberg0.11后,支持使用sql方式实现文件治理,本文记录 expire_snapshots,rewrite_manifests的运行效果与底层文件的变化

2022-08-05 10:16:39 1865

原创 实践数据湖iceberg 第三十七课 kakfa写入iceberg的 icberg表的 enfource ,not enfource测试

测试 iceberg读取kafka的数据,能否根据kafka上的id,入湖时,自动更新iceberg的数据,对这个场景进行测试测试结果:不能

2022-07-22 16:25:50 1489

原创 实践数据湖iceberg 第三十六课 基于数据湖icerberg的流批一体架构--update mysql select from icberg语法是增量更新测试

续上一课,计算一个PV的,案例,最终把结果更新到MYSQL本文测试如下语法是否增量更新insert into default_catalog.default_database.mysql_pv select dt, cast(count(*) as int) as pv from hive_iceberg_catalog.ods_base.IcebergSink_XXZH /*+ OPTIONS('streaming'='true', 'monitor-interval'='1s')*/ where

2022-06-17 14:44:17 899

原创 实践数据湖iceberg 第三十五课 基于数据湖icerberg的流批一体架构--测试增量读是读全量还是仅读增量

上一课中,讲到增量更新,小弟的boss问到,增量实现,是读增量数据还是把历史数据也重新读了一次? 暴击,按照我的理解,就是读增量。。。,大佬是不认按照理解的! 好吧,测试一下,故有本文,读者感到我滴血的心嘛,试问大家有没有这种经历。。。......

2022-06-16 21:21:59 949

原创 实践数据湖iceberg 第三十四课 基于数据湖icerberg的流批一体架构-流架构测试

lambda架构中, kafka->flink中支持 各种流函数,数据入iceberg后,如何对icberg进行流操作,实现类似流函数的结果?基于数据湖的流批一体是什么意思?

2022-06-14 15:46:26 1612 4

原创 实践数据湖iceberg 第三十三课 升级flink到1.14,自带functioin支持json函数

需要flink支持类似hive的get_json_object的功能,又不想自定义function, 有什么办法?目前用flink1.13.5版本,看官网,自带function都没有这个函数,于是发现了新版本flink1.14提供了这些功能,于是有了升级的冲动。。。

2022-05-09 20:30:08 1255

原创 实践数据湖iceberg 第三十二课 DDL语句通过hive catalog持久化方法

问题: flink的sql-client上,创建表,只是当前session有用,退出回话,需要重新创建表。多人共享一个表,很麻烦,有什么办法?解决方法:把建表的DDL操作,持久化到HIVE上,由hive来管理。如何实现呢? 使用hive catalog,在hive catalog下创建表。所有表都是持久化的。

2022-05-07 14:40:14 1008 2

原创 实践数据湖iceberg 第三十一课 使用github的flink-streaming-platform-web工具,管理flink任务流,测试cdc重启场景

flink重启,需要从checkpoint恢复。涉及到任务工程化管理,自研一套这种工具,很耗时,对小公司来说,吃力不讨好,所有寻找了个开源方案, 测试flink-streaming-platform-web ,支持sql,jar,各种集群模式提交,亲测可用

2022-04-28 14:49:24 1274 1

原创 实践数据湖iceberg 第三十课 mysql->iceberg,不同客户端有时区问题

mysql->flink-sql-cdc->iceberg。从flink查数据时间没问题,从spark-sql查,时区+8了。对这个问题进行记录最后解决方案: 源表没有timezone, 下游表需要设置local timezone,这样就没问题了!

2022-04-21 16:33:34 3525

原创 mysql binlog记录insert update delete的记录方式与flink sql不一样

查看insert,update,delete在mysql binlog中是如何进行记录的在flink sql中,update会转化为一条delete和一条insert, 故想看看在mysql binlog的记录方式

2022-04-20 16:08:52 1731

原创 实践数据湖iceberg 第二十九课 如何优雅高效获取flink的jobId

提交一个flink作业,希望获取这个作业的jobId,以便后续程序监控,例如获取checkpoint路径,从checkpoint点重启

2022-04-15 16:50:18 2646

原创 实践数据湖iceberg 第二十八课 把公有仓库上不存在的包部署到本地仓库

**问题**: iceberg很多包,maven仓库没有,但iceberg提供了,通过pom编译打包,报错,原因是maven仓库没有这个包。**解决方法**:把这些包通过maven命令把包打到本地仓库

2022-04-14 16:56:50 1729

原创 flink1.13.5编译,各种填坑

问题:使用官网flink1.13.5,hadoop2.7.2,无法把jar提交到集群进行standalone和yarn模式的部署解决方法:自编译源码

2022-04-07 17:47:33 3228 1

原创 实践数据湖iceberg 第二十七课 flink cdc 测试程序故障重启:能从上次checkpoint点继续工作

程序化部署,测试flink cdc重启恢复测试思路:1.程序停止时,进行checkpoint记录,记录checkpoint的位置 2.程序停止时,写入数据, 记录写入的数据, 测试重启后,能否从故障点开始恢复。结论:能

2022-04-07 17:32:42 3843

原创 修改hive默认格式

文章目录前言一、修改hive默认格式方法二、测试是否生效总结前言设置hive默认格式,作用,统一数据格式。一、修改hive默认格式方法设置默认格式为rcfilehive (default)> set hive.default.fileformat.managed=rcfile;hive (default)> set hive.default.fileformat=rcfile;二、测试是否生效思路: 修改格式前后建表,检查表的格式建表,查看目前格式hive (defa

2022-04-06 11:48:09 2792

原创 apache源码 学以致用 第三课: 跟kafka学习 写classpath脚本

跟kafka学习 写java classpath 运行脚本

2022-04-01 16:46:53 947

原创 实践数据湖iceberg 第二十六课 checkpoint设置方法

系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言checkpoint设置方法一、pandas是什么?二、使用步骤1.引入库2.读入数据3.总结前言checkpoint设置方法提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么? StreamExecutionEnvironment

2022-04-01 16:36:48 2104

原创 实践数据湖iceberg 第二十五课 后台运行flink sql 增删改的效果

系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber

2022-04-01 15:04:44 2028

原创 hive select * 语法中去掉部分列

hive表有很多列,大部分列需要,其中一列不需要,例如分区表的dt字段不要,例如1000列中去掉1列

2022-03-23 18:06:09 7385

原创 小文件治理之hive文件合并:hive小文件合并的三种方法

合并小文件太多的方法: 一、concatenate方法二、insert overwrite方法总结 三、insert overwrite select *

2022-03-23 15:08:43 14583 1

原创 小文件治理之hadoop集群监控:文件目录个数 获取的三种方法

系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、二、jmx获取二、使用hadoop fs -count 获取三、代码实现总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正

2022-03-15 08:06:38 863

原创 apache源码 学以致用 第二课: 跟kafka学习 程序优雅退出

程序运行后,需要做资源清理,删除目录、关闭数据库连接等,本文学习kafka,顶级大师的代码,看看怎样把本领学到手。在main方法中增加 Runtime.getRuntime().addShutdownHook(new Thread()) 来实现资源的清理

2022-03-11 14:42:16 2638

原创 apache源码学以致用 第一课:为什么写这个专栏

文章目录为什么写这个专栏为什么写这个专栏平时看源码,看后,可能经过反复看,学习、加实践,实践过程中有疑惑,再参考一下世界顶级代码。突然想起,从历史记忆中找各种点点滴滴的东西,很难。现在想到更好的方法是:看到一个好的方法,应用与工作中的实际案例,写下文章,容易未来整理,也给后人学习。...

2022-03-11 10:12:51 66

原创 小文件治理之hadoop集群监控:Jmx上的TotalFiles其实是TotalFilesAndDirectory 总文件+总目录数

文章目录前言一、50070页面,这2个数字的意思二、验证方法步骤1.停止集群,记录目前的数据步骤2. put一个有3个block的文件看看,对比变化总结前言50070页面上的文件数和block数,通过jmx获取时,看字面上的意思对不上,所以,专门写个文章分析一下。提示:以下是本篇文章正文内容,下面案例可供参考一、50070页面,这2个数字的意思第一个是文件数+目录数的总和,目前是66236,第二个数是65530个block,block的个数(不包含副本)二、验证方法**验证方法:**停止

2022-03-09 14:20:56 2402

原创 hadoop fs -count 返回的是目录树和文件数

文章目录测试hadoop fs -count 返回前2个数值的意思测试hadoop fs -count 返回前2个数值的意思[root@hadoop101 software]# hadoop fs -ls -R /tmp/testdrwxr-xr-x - root supergroup 0 2022-03-09 11:11 /tmp/test/software-rw-r--r-- 2 root supergroup 209419991 2022-03-09 11:11

2022-03-09 11:24:47 2318

原创 小文件治理之hadoop集群监控: hdfs jvm数据获取

文章目录前言一、获取jvm使用情况信息二、获取的所有信息三、获取指定信息方法四、更多namenode的参数信息总结前言怎样爬取50070页面的信息,一开始想写个爬虫,后来发现,可以通过接口调用,节省了很多麻烦一、获取jvm使用情况信息}[root@hadoop101 ~]# curl hadoop101:50070/jmx?qry=java.lang:type=Memory{ "beans" : [ { "name" : "java.lang:type=Memory", "

2022-03-08 19:46:13 849

原创 实践数据湖iceberg 第二十四课 iceberg元数据详细解析

本文彻底解释 iceberg元数据 存储细节实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知

2022-02-23 20:50:36 4754

原创 实践数据湖iceberg 第二十三课 flink-sql从checkpoint重启

成功测试flink-sql以非jar包的方式从checkpoint重启,完成故障恢复测试实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知

2022-02-23 15:46:18 4283 1

原创 实践数据湖iceberg 第二十二课 flink1.13.5 + iceberg0.131 CDC(CRUD测试成功)

成功测试 flink+mysql-cdc+iceberg数据湖的CRUD实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知

2022-02-22 21:13:47 2286

原创 实践数据湖iceberg 第二十一课 flink1.13.5 + iceberg0.131 CDC(测试成功INSERT,变更操作失败)

实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知

2022-02-22 19:30:46 2517

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除