- 博客(86)
- 收藏
- 关注
原创 SPARKSQL3.0-DataFrameAPI与spark.sql()区别源码分析
SPARKSQL3.0-DataFrameAPI与spark.sql()区别源码分析
2022-11-22 11:15:49 883
原创 SPARKSQL3.0-Unresolved[Parsed]阶段源码剖析
SPARKSQL3.0-Unresolved[Parsed]阶段源码剖析
2022-11-21 17:47:03 815 1
原创 SPARKSQL3.0-Antlr4由浅入深&SparkSQL语法解析
SPARKSQL3.0-Antlr4由浅入深&SparkSQL语法解析
2022-11-16 18:47:16 2468 1
原创 产品SDK化转型:标准化与机构个性化定制解决方案
在互联网行业中,企业通常可分为两大类别:2C和2B。对于2B企业而言,它们的产品往往以产品的形式提供给各个合作机构。以金融领域为例,一家2B金融公司通常将产品销售给各个银行和证券公司,这是2B领域常见的做法。然而,在与众多合作机构合作时,常常需要进行产品迭代和定制化功能的开发。这些定制化功能涉及到前端页面和后端接口,有些功能甚至不适合合并到主线产品中,而只能作为合作机构的特殊功能。随着合作机构的增加,一个产品可能需要兼容数十家银行,这使得面对众多定制化需求以及需求可能需要合并至产品的情况变得复杂。
2024-03-28 10:08:10 978
原创 Java SPI解读:揭秘服务提供接口的设计与应用
在 Java 编程中,SPI(Service Provider Interface)是实现**可插拔式**应用的一种机制。它就像是应用程序的魔法盒,让你可以随时添加新的功能实现,而不需搞得一团糟。通过SPI,我们可以在运行时**动态加载**具体的服务实现,这意味着你的应用程序可以像变戏法一样,轻松地变身成不同的形态。
2024-03-28 09:54:17 784
原创 Flink实时数仓同步:快照表实战详解
在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,业务使用人员需要大数据分析平台中查看历史某一天的表数据,示例如下:
2024-02-02 17:24:57 1307
原创 Flink实时数仓同步:流水表实战详解
在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,大数据分析平台需要能够检索某张业务表的变更记录,并以每天为单位统计每条数据的变更频率。
2024-02-02 17:03:55 1112
原创 数据治理设计理论
数据治理是一种综合性的、系统性的数据管理过程,旨在确保组织内的数据质量、安全性、可用性和合规性。它涵盖了规划、制定政策、流程、标准以及监督执行这些政策、流程和标准的所有方面。数据治理的目标是建立健康的数据管理体系,使组织能够更好地管理、维护和利用数据资源。
2023-07-21 22:36:25 383
原创 数据仓库发展历史
数据仓库是企业中用于存储、整合和分析数据的关键组件。随着时间的推移,数据仓库经历了三代演化:从需求驱动到平台化、从平台化到智能(AI)化
2023-07-21 22:14:40 815
原创 数据仓库表设计理论
数据仓库表设计理论: 数仓顾名思义是数据仓库,其数据来源大多来自于业务数据(例如:关系型数据库),当设计数仓中表类型时(拉链表、增量表、全量表、流水表、切片表)时,应先观察业务数据的特点再设计数仓表结构
2023-07-21 21:20:46 2596
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人