- 博客(22)
- 收藏
- 关注
转载 本地事务如何实现隔离性?
这四种隔离级别属于数据库的基础知识,多数大学的计算机课程应该都会讲到,但不少教材、资料都把它们当作数据库的某种固有设定来进行讲解,导致很多人只能对这些现象死记硬背。其实,不同隔离级别以及幻读、脏读等问题都只是表面现象,它们是各种锁在不同加锁时间上组合应用所产生的结果,锁才是根本的原因。
2023-05-14 08:48:43 262
翻译 Delta, Hudi, and Iceberg: 数据湖仓三重奏
Delta Lake、Apache Hudi和Apache Iceberg之间的选择将取决于对其各自功能、权衡以及与组织目标的一致性的仔细评估。通过彻底了解每个解决方案的功能,组织可以确保一个经得起未来考验的Data Lakehouse基础设施,该基础设施有助于数据驱动的决策,并释放新的见解来推动业务增长。
2023-05-08 09:13:58 360
翻译 数据分析的新时代:探索数据湖仓(Data Lakehouse)架构的创新世界
在本文中,我们将更深入地研究湖仓一体的架构和组件,探索让这一开创性解决方案成为可能的相关技术。
2023-05-07 18:37:31 136
翻译 数据湖仓(湖仓融合):可扩展、敏捷和经济高效的数据基础设施的未来
翻译:阳龙生 深入了解数据湖仓(作为数据管理未来)的崛起,提供可扩展、灵活和经济高效的解决方案,使组织能够在当今快节奏的数字世界中充分发挥其数据的潜力。在当今这个数据驱动的世界,各行各业的企业越来越依赖数据仓库和数据湖解决方案来存储、处理和分析其不断增长的数据。这些传统方法在帮助组织释放数据中隐藏的价值、推动知情决策方面发挥了至关重要的作用。然而,随着数据管理问题的不断发展,企业面临着与数据量、多样性和速度相关的新挑战,以及对实时展现、高级分析和机器学习能力的需求。
2023-05-07 08:14:24 156
原创 中心化,去中心化架构系列文章
最古早的当然是中心化架构,大数据领域常常会谈到去中心化的架构,但其实绝大部分大数据组件都不是完全去中心化架构的,或者说其实是动态中心化架构的,不管是hdfs的NamaNode,DataNode,还是Hbase的HMaster,HRegionServer,Yarn的ResourceManager,NodeManager。我不知道是否有应当作为信仰的技术,更大可能是每种技术只是解决了某个特定领域的问题,人们最终的需求并不是技术,而是帮他们解决问题的方案。
2023-05-05 10:54:46 177
原创 kafka生产者源码拆解(2)
上次源码拆解中我们了解到它是一个一个批次,一条一条消息组成的批次,而将消息一条一条加入到队列中以及怎么封装批次这个过程的代码也非常值得我们学习,主要在以下方法:org.apache.kafka.clients.producer.internals.RecordAccumulator#append。
2023-03-11 20:23:36 88
原创 我们应当如何看待读源码
写项目是从小到大,一个一个模块写出来的,写的过程你的思路是清晰的,你知道你在要完成什么目的,每一行代码在做什么,但是对于阅读者它是一个网状的结构,类之间调用跳转,如同迷宫一样,阅读者很容易迷失在里面,不知道自己在干什么。对于即将出现的代码块,阅读并不知道它的意图,这是一个破案的过程。项目优秀不代表代码字字珠玑,现在项目越来越大,参与的人越来越多,水平良莠不齐,我们依然需要批判性的眼光,取其精华,忽略其糟粕,取其思想,忽略细节,我们要知道什么地方是核心代码,核心设计,不要在细节处浪费时间。
2023-03-11 09:02:36 48
原创 kafka生产者源码拆解(1)
查看Kafka生产者(org.apache.kafka.clients.producer.KafkaProducer)源码可以看到每条消息经过封装,拦截器,序列化器,分区器之后会放到一个RecordAccumulator的缓冲池中,这个对象里面有一个重要属性他会给每个topic每个分区分配一个队列,每条消息就这样会放到这个map里面。等待着Sender线程来这里取数据真正的发送出去。
2023-03-10 19:46:11 69
原创 DolphinScheduler工作流上下线问题源码分析
当我们在ds上工作流比较多了之后,工作流需要修改的时候会发现一个问题:我们会反复的下线,查找,修改,上线,下线,查找,修改……
2023-02-08 10:54:29 227
原创 双缓存提升写磁盘的效率
大家都知道读磁盘不是一个字节一个字节读的,写磁盘也不是一个字节一个字节写的,所以当中会用到缓存,缓存在计算机领域无处不在,当有持续不断的数据流需要写到内存,并从内存写到磁盘的时候,我们可以用到双缓存,提高效率,其中一个缓存刷到磁盘的时候不会影响另一个缓存添加内容,在很多大数据组件源码中都有这样的应用以应对高并发场景。接下来是最重要的核心添加日志数据和刷写磁盘的代码,其中对锁和volatile关键字的使用特别重要。其次我们定义一个缓存,用来存放日志数据。
2022-11-27 20:56:27 656
原创 Azkaban任务依赖你有深入了解吗
azkaban的business date在上下游依赖中有着重要作用,却常常被忽略,我们都知道下游任务依赖上游任务,但具体问题是
2022-09-07 19:50:33 407
原创 clickhouse集群方案及表引擎最佳实践
clickhouse集群方案使用起来会比单机版复杂不少,来看看我们踩过的坑吧,从建库,建表,到语句,引擎,给你保姆级别的案例
2022-07-10 10:03:29 445
原创 clickhouse物化视图最佳实践样例
clickhouse的视图是一段sql逻辑很好理解,而物化视图不太一样,简单可以理解为将sql的结果存下来,这样可以加速查询,但事实当然不只是这样,最主要的是原表的变化会触发视图表的数据增加,clickhouse物化视图除了常用的sql语句,还有其独特的语法,在特定时候有奇效
2022-05-08 12:29:58 755
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人