自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

向阳而生

技术成就你我,共享爱上生活

  • 博客(24)
  • 收藏
  • 关注

原创 数仓建模 专栏 更新啦(20240419)

数据仓库已经是企业的数据竞争的核心了,学好数据仓库对提高自己和找到一份好的工作都至关重要,但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习的大数据技术其实最终的价值都体现在数据服务上,数仓是数据服务的基石,如果说业界以前还有离线和实时之分的话,那么现在实时数仓的提出与落地,未来数仓将是数据战争的最激烈的战场,一切大数据技术都将为数仓提供服务,也都将在数仓这一环节进行收口。读者交流群已经开通了,有需要的可以私信进入读者交流群,群内进行技术交流和资料共享。

2024-04-19 09:14:34 653

原创 数仓建模 专栏 更新啦(20240417)

上述的这些方法都有自己的优点和局限性,在创建自己的数据仓库模型的时候,可以参考使用上述的三种数据仓库得建模方法,在各个不同阶段采用不同的方法,从而能够保证整个数据仓库建模的质量。方法论仅仅停留在理论层面上,落地实现的才真正决定了数仓设计的好坏,当然再好的方法,只有在合适的阶段使用,才有意义,才能发挥它最大的价值Inmon 方法的强调的是“数据集市”, Kimball 提倡的“集中式的数据仓库”。数据集市是将数据分为各类主题,对应到各个业务部门,以提供信息查询、报表生成。

2024-04-17 16:40:24 703

原创 数据仓库—什么是数据仓库

数据仓库将来自不同源的分散数据进行集成,以主题化的方式组织历史数据,提供一个稳定、一致的企业数据平台,为决策分析提供强大的支持。它解决了传统系统无法满足决策支持需求的缺陷。通过数据仓库,企业可以全面了解内外部业务运营情况,发现问题和机遇、分析历史趋势、预测未来走向,为业务策略、投资方向、营销策略等各类管理决策提供数据支持。是实现商业智能的关键基础平台。数仓架构的这种分层架构设计使数据集成和管理更高效,同时也为用户决策分析提供了可靠、高质量的数据资源。

2024-04-11 09:35:57 287

原创 数据仓库理论与实战

以hadoop 作为基础生态,从0到进行数仓建设,主要分为基础篇和实战篇两部分,基础篇主要是各种组件的学习和案例,实战篇主要是三家企业的数仓设计案例,最后是扩展篇主要是实时数仓。

2024-04-09 13:09:19 1245

原创 数据仓库的作用和价值

数据仓库将分散于各系统的数据进行ETL集成,形成了统一的、全面的企业数据资产,实现了数据共享和集中管理,避免了数据重复构建、资源浪费等问题。案例:某大型制造企业的数据仓库将ERP、CRM、SCM等20多个系统的核心数据进行整合,形成标准的业务术语、统一的客户视图、集中的订单数据等, 各部门能够高效获取所需数据,避免了生产、销售、供应链等环节的数据割裂。案例:某连锁餐厅通过分析数据仓库中的销售、库存、供货等数据,发现了许多产品浪费和效率低下的环节,调整了食材采购策略、菜单搭配,有效降低了浪费,提高了销售额。

2024-03-30 13:17:43 871

原创 数据仓库的发展历程

数据仓库的概念可以追溯到20世纪60年代,但真正形成理论并被企业广泛应用还需要一个较长的发展过程。

2024-03-30 13:16:54 1277

原创 什么是数据仓库

数据仓库将来自不同源的分散数据进行集成,以主题化的方式组织历史数据,提供一个稳定、一致的企业数据平台,为决策分析提供强大的支持。它解决了传统系统无法满足决策支持需求的缺陷。通过数据仓库,企业可以全面了解内外部业务运营情况,发现问题和机遇、分析历史趋势、预测未来走向,为业务策略、投资方向、营销策略等各类管理决策提供数据支持。是实现商业智能的关键基础平台。数仓架构的这种分层架构设计使数据集成和管理更高效,同时也为用户决策分析提供了可靠、高质量的数据资源。

2024-03-30 12:52:22 722

原创 数据仓库 专栏

数据仓库已经是企业的数据竞争的核心了,学好数据仓库对提高自己和找到一份好的工作都至关重要,但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习的大数据技术其实最终的价值都体现在数据服务上,数仓是数据服务的基石,如果说业界以前还有离线和实时之分的话,那么现在实时数仓的提出与落地,未来数仓将是数据战争的最激烈的战场,一切大数据技术都将为数仓提供服务,也都将在数仓这一环节进行收口。有数仓经验但是缺乏全面认识的同学。数据仓库与操作数据库的区别。数据仓库的作用和价值。

2024-03-30 12:51:00 309

原创 Doris 专栏 更新啦(20240330)

2022 年 6 月,Apache Doris 成功从 Apache 孵化器毕业,正式成为 Apache 顶级项目(Top-Level Project,TLP)Apache Doris 如今在中国乃至全球范围内都拥有着广泛的用户群体,截止目前, Apache Doris 已经在全球超过 2000 家企业的生产环境中得到应用,在中国市值或估值排行前 50 的互联网公司中,有超过 80% 长期使用 Apache Doris,包括百度、美团、小米、京东、字节跳动、腾讯、网易、快手、微博、贝壳等。

2024-03-30 10:14:18 629

原创 Doris 专栏 更新啦(20240329)

2022 年 6 月,Apache Doris 成功从 Apache 孵化器毕业,正式成为 Apache 顶级项目(Top-Level Project,TLP)Apache Doris 如今在中国乃至全球范围内都拥有着广泛的用户群体,截止目前, Apache Doris 已经在全球超过 2000 家企业的生产环境中得到应用,在中国市值或估值排行前 50 的互联网公司中,有超过 80% 长期使用 Apache Doris,包括百度、美团、小米、京东、字节跳动、腾讯、网易、快手、微博、贝壳等。

2024-03-29 09:04:14 517

原创 100 天机器学习指南 更新啦(20240324)

接下来几天的机器学习之旅应该重点了解机器学习的基础知识。您应该首先了解不同类型的机器学习及其应用程序。您还应该熟悉机器学习中使用的关键概念和术语。之后,是时候深入研究算法领域了。有多种机器学习算法可供选择,算法的选择取决于您寻求解决的问题的性质。什么是机器学习?

2024-03-24 20:52:21 674

原创 机器学习 专栏 更新啦(20240324)

随着现在以ChatGPT为代表的大模型发展,人工智能、机器学习、大模型 这些词逐渐火热起来了,所以是时候了解一下这些东西了,可能有的人会说不会太晚了吗,其实不晚,因为我们从来都是技术的创造者,只是技术的使用者而已,在一定程度上来说,及时的学会使用,对普通人来说就足以过上不错的日子。但是伴随着老的生产力的落幕,必然有新的生产力出现,否则整个社会的发展就陷入了停滞,其实我们可以看到现在的AI 发展的这么快,每一轮的技术发展都会有一二十年的生命周期,我们只能说传统互联网走到了夕阳西下的时候。

2024-03-24 20:49:33 216

原创 Doris 专栏

2022 年 6 月,Apache Doris 成功从 Apache 孵化器毕业,正式成为 Apache 顶级项目(Top-Level Project,TLP)Apache Doris 如今在中国乃至全球范围内都拥有着广泛的用户群体,截止目前, Apache Doris 已经在全球超过 2000 家企业的生产环境中得到应用,在中国市值或估值排行前 50 的互联网公司中,有超过 80% 长期使用 Apache Doris,包括百度、美团、小米、京东、字节跳动、腾讯、网易、快手、微博、贝壳等。

2024-03-24 07:58:26 475

原创 Hadoop 专栏

Hadoop 是使用 Java 编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache 的开源框架。也是我们最早常用的开源的大数据框架,以至于到现在很多大数据的技术框架底层或者生态都是依赖它的,也是我们学习大数据或者从事互联网的人学习的第一个大数据框架。而且它的思想至今也是很多大数据框架的底层核心。Hadoop 框架应用工程提供跨计算机集群的分布式存储和计算的环境。Hadoop 是专为从单一服务器到上千台机器扩展,每个机器都可以提供本地计算和存储。

2024-03-24 07:52:37 897

原创 100 天机器学习指南 上线啦(20240323)

接下来几天的机器学习之旅应该重点了解机器学习的基础知识。您应该首先了解不同类型的机器学习及其应用程序。您还应该熟悉机器学习中使用的关键概念和术语。之后,是时候深入研究算法领域了。有多种机器学习算法可供选择,算法的选择取决于您寻求解决的问题的性质。什么是机器学习?

2024-03-23 10:03:08 746

原创 机器学习 专栏更新啦(20240323)

随着现在以ChatGPT为代表的大模型发展,人工智能、机器学习、大模型 这些词逐渐火热起来了,所以是时候了解一下这些东西了,可能有的人会说不会太晚了吗,其实不晚,因为我们从来都是技术的创造者,只是技术的使用者而已,在一定程度上来说,及时的学会使用,对普通人来说就足以过上不错的日子。但是伴随着老的生产力的落幕,必然有新的生产力出现,否则整个社会的发展就陷入了停滞,其实我们可以看到现在的AI 发展的这么快,每一轮的技术发展都会有一二十年的生命周期,我们只能说传统互联网走到了夕阳西下的时候。

2024-03-23 10:01:19 520

原创 ChatGP T专栏

360创始人周鸿祎认为未来各行各业如果不能搭上这班车,就有可能被淘汰在这个数字化时代,如何能高效地处理文本、文献查阅、PPT编辑、编程、绘图和论文写作已经成为您成功的关键。而 ChatGPT,作为一种强大的自然语言处理模型,具备显著优势,能够帮助您在各个领域取得突破。无论是进行代码生成、错误调试还是解决编程难题,ChatGPT都能为您提供实用且高质量的建议和指导,提高编程效率和准确性。此外,ChatGPT是一位出色的合作伙伴,可以为您提供论文写作的支持。

2024-03-22 09:02:26 444

原创 机器学习 专栏 更新啦

随着现在以ChatGPT为代表的大模型发展,人工智能、机器学习、大模型 这些词逐渐火热起来了,所以是时候了解一下这些东西了,可能有的人会说不会太晚了吗,其实不晚,因为我们从来都是技术的创造者,只是技术的使用者而已,在一定程度上来说,及时的学会使用,对普通人来说就足以过上不错的日子。但是伴随着老的生产力的落幕,必然有新的生产力出现,否则整个社会的发展就陷入了停滞,其实我们可以看到现在的AI 发展的这么快,每一轮的技术发展都会有一二十年的生命周期,我们只能说传统互联网走到了夕阳西下的时候。

2024-03-22 08:58:42 327

原创 Clickhouse 专栏

ClickHouse 是一个面向列的数据库管理系统(DBMS),用于查询的在线分析处理(OLAP)。ClickHouse 简写是 CK。由号称“俄罗斯Google”的Yandex开发而来,在2016年开源。以过往经验来看,你可以使用极其低的成本来完成以往 RDBMS(比如MySQL)做不到的准实时级别的数据分析,也可以用它来做远程多个数据库实例的数据迁移或者归档存储。

2024-03-21 08:49:54 288

原创 Java集合与数据类型 专栏

我们知道一般情况下我们划分内存的标准是连续或者不连续,在这种划分方式下诞生出了两种数据结构,一种是数组以使用连续内存为代表的一种是链表可以使用非连续内存的代表,接下来我们从这二者的角度去看一下集合的对比类型连续内存依赖数组非连续内存依赖链表ArrayList是LinkedList是Vector是Stack是(借助Vector实现的)

2024-03-21 08:43:20 742

原创 机器学习 专栏

其实当你回过头去看的时候你就会发现很多事情都是这样的,淘宝京东是学习亚马逊的,移动支付是学习paypal 的,微信QQ 是学习facebook 的,即使这样不也撑起了中国互联网风风火火的20年吗,所以很多事情晚不是问题,重要的是彻底不参与视若无睹。但是伴随着老的生产力的落幕,必然有新的生产力出现,否则整个社会的发展就陷入了停滞,其实我们可以看到现在的AI 发展的这么快,每一轮的技术发展都会有一二十年的生命周期,我们只能说传统互联网走到了夕阳西下的时候。那些你感觉从来不会看到的景色。你在和朋友碰杯叙情时。

2024-03-20 15:00:13 273

原创 数据湖 专栏

数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖中的数据包括结构化数据(关系数据库数据),半结构化数据(CSV、XML、JSON等),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频),从而形成一个容纳所有形式数据的集中式数据存储。数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。

2024-03-20 14:47:57 411

原创 数仓建模 专栏

数据仓库已经是企业的数据竞争的核心了,学好数据仓库对提高自己和找到一份好的工作都至关重要,但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习的大数据技术其实最终的价值都体现在数据服务上,数仓是数据服务的基石,如果说业界以前还有离线和实时之分的话,那么现在实时数仓的提出与落地,未来数仓将是数据战争的最激烈的战场,一切大数据技术都将为数仓提供服务,也都将在数仓这一环节进行收口。

2024-03-20 14:39:45 921

原创 Hive 专栏

数据仓库已经是企业的数据竞争的核心了,学好数据仓库对提高自己和找到一份好的工作都至关重要,但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习的大数据技术其实最终的价值都体现在数据服务上,数仓是数据服务的基石,如果说业界以前还有离线和实时之分的话,那么现在实时数仓的提出与落地,未来数仓将是数据战争的最激烈的战场,一切大数据技术都将为数仓提供服务,也都将在数仓这一环节进行收口。

2024-03-20 14:36:17 1028

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除