程序员学习圈-CSDN博客

原创阿里巴巴数据中台实践分享

01、中台模式驱动全集团业务02、数据驱动业务的典型场景03、阿里数据中台体系的核心要素04、数据中台：数据资产化05、数据中台：OneData数据资产化核心方法论06、数据中台：数据资产化核心方法论-OneModel07、数据资产化核心方法论-OneModel08、数据中台：服务产品化09、数据中台：OneData方法论驱动的平台智能化10、数据中台：创新敏捷化11、企业数据中台：“欲速则不达”的陷阱12、企业数据中台：方法论+自动化支持的逐层构建

2020-10-21 12:10:36 3346

原创《数据中台实战课》实现篇-学习笔记

4、元数据中心的关键目标和技术实现方案5、如何统一管理纷繁杂乱的数据指标6、数据模型无法复用，归根结底还是设计问题7、同事老打脸说数据有问题，该怎么彻底解决8、交付速度和质量问题解决了，老板说还得“省”9、数据服务到底解决了什么问题？10、数据服务难道就是对外提供个API吗？11、怎么一劳永逸地解决数据安全问题？12、数据的台子搭完了，但你还得想好戏该怎么唱13、数据研发就只是写代码吗14、数据被加工后，你还要学会使用和管理数据15、数据中台在网易电商业务的最佳实践16、结束语

2020-10-21 10:50:23 11434

原创《数据中台实战课》原理篇-学习笔记

1、为什么说数据中台是大数据的下一站？2、到底什么样的企业应该建数据中台？2.1 建设中台前，我们面临的挑战（数据中台解决的问题）2.2 为什么数据中台可以解决这些问题（问题背后的原因）2.3 数据中台如何解决这些问题的？2.4 什么样企业适合建设数据中台？3、数据中台建设三板斧：方法论、组织和技术

2020-10-20 11:01:23 934

原创数据仓库【什么是宽表？什么是窄表？宽表和窄表的区别、优点、缺点及各自用处】

宽表：从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。由于把不同的内容都放在同一张表存储，宽表已经不符合三范式的模型设计规范，随之带来的主要坏处就是数据的大量冗余，与之相对应的好处就是查询性能的提高与便捷。这种宽表的设计广泛应用于数据挖掘模型训练前的数据准备，通过把相关字段放在同一张表中，可以大大提高数据挖掘模型训练过程中迭代计算时的效率问题。（一句话，空间换时间，便于训练迭代、减少表关联数量，修改少量数据时不需要该多张表）

2020-10-19 19:52:00 3271 1

原创数据仓库【质量监控】

1、监控1.1 日常监控1.2 数据对账1.3 性能监控2、告警3、多数据源3.1 规则引擎3.1.1 Sql模板3.1.2 元数据3.1.3 自定义模板3.2 执行引擎3.2.1 Sql执行3.2.2 直接获取数据量3.3 算法执行引擎3.4 多数据源4、数据校验

2020-10-18 17:52:31 841

原创数据仓库【实时数仓】

1、数据仓库简介2、数据仓库的发展3、数据仓库建设方法论3.1 面向主题3.2 为多维数据分析服务3.3 反范式数据模型4.数据仓库架构的演变4.1 离线大数据架构4.2 Lambda 架构4.3 Kappa 架构4.4 Lambda 架构与 Kappa 架构的对比5.实时数仓案例5.1 整体设计5.2 数据模型5.3 数据保障6. 实时数仓与离线数仓的对比

2020-10-17 21:59:54 4339 1

原创数据仓库【实时数仓】

一般情况下可以分为基础指标(原子指标)、复合指标、派生(衍生)指标基础指标：指表达业务实体原子量化属性的且不可再分的概念集合，如交易笔数、交易金额、交易用户数等。复合指标：指建立在基础指标之上，通过一定运算规则形成的计算指标集合，如平均用户交易额、资产负债率等。派生指标：指基础指标或复合指标与维度成员、统计属性、管理属性等相结合产生的指标，如交易金额的完成值、计划值，累计值、同比、环比、占比等。 ...

2020-10-17 13:57:46 1124

原创数据仓库【主数据】

1.主数据的定义主数据（MD-Master Data）指系统内或系统之间的共享数据。2.主数据的特征主数据是具有共享性的基础数据，可以在企业内跨越各个业务部门被重复使用的，因此通常长期存在且应用于多个系统。由于主数据是企业基准数据，数据来源单一、准确、权威，具有较高的业务价值，因此是企业执行业务操作和决策分析的数据标准。3.主数据管理的四大要素集成、共享、数据质量、数据治理主数据管理要做的就是从企业的多个业务系统中整合最核心的、最需要共享的数据（主数据），集

2020-10-16 09:19:32 857

原创数据仓库【主题域划分】

1.关于主题数据仓库中的数据是面向主题的，主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念，每一个主题基本对应一个宏观的分析领域。如财务分析就是一个分析领域，因此这个数据仓库应用的主题就为“财务分析”。2.关于主题域主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点，将这些数据主题划分到不同的主题域(也说是对某个主题进行分析后确定的主题的边界。)3.关于主题域的划分主题域的确定必须由最终用户和数据仓库的设计人员共同完成的，而在

2020-10-15 20:38:57 1522

原创数据仓库【事实表，维度，度量，指标之间的关系】

事实表：每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据，如销售商品所产生的数据，与软件中实际表概念一样。维度：说明数据，维度是指可指定不同值的对象的描述性属性或特征。例如，地理位置的维度可以包括“纬度”、“经度”或“城市名称”。“城市名称”维度的值可以为“旧金山”、“柏林”或“新加坡”。指标：衡量数据，指标是指可以按总数或比值衡量的具体维度元素。例如，维度“城市”可以关联指标“人口”，其值为具体城市的居民总数。度量：事实表和维度交

2020-10-15 09:09:31 1639

原创数据仓库【数据治理概述】

01、数据治理、数据管理与数据管控在日常工作中，数据“治理”、“管理”和“管控”常常被“混搭”。这种混搭，在不同的文件、报告、沟通层面，可能造成对数据工作的歧义，具体到谁来做、做什么、怎么做，特别需要概念层面澄清。1.数据治理是什么：事实上，治理面对的更多是战略层面、组织层面、制度层面的事务，是“make sure it’s be doing”，确立“什么样的决策需要在什么层级制定”。所以，数据治理是一个相对高阶的概念。谁来做：对应的是一个“数据治理委员会”级别的机构，由

2020-10-14 21:57:57 2310

原创数据仓库【数据管理】

1、定位 Apache Atlas：Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。 Linkedin WhereHows：WhereHows是LinkedIn公司为了方便员工发现公司内部数据、跟踪数据集移动、查看各种内部工具和服务的动向，而开发的用于大数据发现和管理的工具。它从不同的源系统中采集元数据，并进行标准化和建模，从而作

2020-10-13 20:28:57 351 1

原创数据仓库【Date Vault 建模】

Data Vault（DV）模型是用于企业级的数据仓库建模。由Dan Linstedt在20世纪90年代提出（http://www.danlinstedt.com）。最近几年，Data Vault模型获得了很多关注，并在BI社区里拥有了一批追随者。Dan Linstedt将Data Vault模型定义如下：Data Vault是面向细节的，可追踪历史的，它是一组有连接关系的规范化的表的集合。这些表可以支持一个或多个业务功能，它是一种综合了第三范式（3NF）和星型模型优点的建

2020-10-13 09:29:47 1050

原创数据仓库【数据质量】

1、基本概念数据质量：一个评估规则维度提供一种测量与管理信息和数据的方式。区分规则维度有助于：将维度与业务需求相匹配，并且划分评估的先后顺序；了解从每一维度的评估中能够/不能够得到什么；在时间和资源有限的情况下，更好地定义和管理项目计划中的行动顺序。数据质量检核主要分为以下规则维度：完整性（Completeness）：用来描述信息的完整程度。唯一性（Uniqueness）：用来描述数据是否存在重复记录，没有实体多余出现一次。有效性（Validity）：用来描述模型或数据是否满足用户定义的条

2020-10-12 21:36:28 1225 1

原创数据仓库【多维分析】

1、BI1.1 BI 技术2、OLAP基本操作和类型2.1 OLAP基本操作2.2 OLAP分类3、OLAP数据库选型3.1 Presto3.1.1 概念3.1.2 presto架构（master+slaver模式）3.1.3 Presto应用场景3.2 Druid3.2.1 概念3.2.2 Druid架构3.2.3 基本特点3.2.4 应用场景3.2.5 Druid案例3.3 Kylin3.3.1 概述3.3.2 kylin特性

2020-10-12 21:13:03 2451

原创数据仓库【分层架构】

1.为什么要分层2.Inmon与Kimball3.CIF 层次架构3.1 ODS(Operational Data Store)3.2 DWD(Data Warehouse Detail)3.3 DWS(Data Warehouse Service)3.4DM(Data Market)4、数据模型4.1 数据模型的作用 4.2 模型设计的基本原则5、补充说明

2020-10-12 09:51:33 944 1

原创数据仓库【Kimball vs Inmon】

1.概述2.什么是Kimball2.1 概念2.2 流程3.什么是Inmon3.1 概念3.2 流程4.特征对比4.1 特性4.2 优劣比较5.具体例子5.1 数据5.2 对比5.2.1 Inmon 模式：5.2.2 Kimball 模式6.总结

2020-10-11 23:26:40 1262

原创数据仓库【范式建模】

1.概述数据仓库这个概念是由 Bill Inmon 所提出的、他在 "Build the Data Warehouse" 一书中所提出了数据仓库的定义。数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。

2020-10-11 19:49:34 1053

原创数据仓库【纬度建模】

一、基本概念1、基本概念2、事实表2.1 事实表概述2.2 事实表粒度 2.3 事实表设计原则2.4 事实表的分类3、纬度表3.1 退化维度（DegenerateDimension）3.2 缓慢变化维（Slowly Changing Dimensions）4、粒度5、维度建模流程5.1 确认业务过程5.2 确认粒度5.3 确认维度5.4 确认事实二、建模方法1、维度模型1.1 星型模型1.2 雪花模式1.3 星座模式

2020-10-11 14:18:14 825

原创数据仓库【数仓模型】

1、为什么需要数仓模型2、数据仓库建模目标3、数据仓库建模阶段划分4、数据仓库建模方法4.1范式建模法（Third Normal Form，3NF）4.2维度建模法4.3 实体建模法

2020-10-11 12:33:57 674 1

原创数据仓库【数据同步&ETL】

* ETL数据同步之工具（Sqoop、DataX、Kettle、Canal 等）；* ETL数据同步之语言；* ETL数据同步之源数据类型；* ETL数据加载策略；* ETL数据加载策略【增量表详解】* ETL数据加载策略【拉链表详解】

2020-10-11 12:06:28 517

原创数据仓库【基础架构】

1、基本概念1.1什么是数据库1.2 什么是数据仓库1.3 数据库(OLTP)与数据仓库(OLAP)的区别2、基础架构3、架构演进4、逻辑分层5、数据调研6、主题域划分7、数仓规范8、数据治理9、数仓理念

2020-10-11 10:56:24 549

原创数据仓库【书籍推荐】

1.数据仓库生命周期工具箱(第二版) 告诉你数据仓库从0到1都有什么流程，更多的是管理流程，每个阶段有什么样的文档。2.数据仓库工具箱-维度建模权威指南(第三版) 告诉你维度建模的表该如何设计，有坑了怎么解决。3.数据仓库ETL工具箱告诉你模型建好了，ETL到底如何实施，ETL到底怎么设计，才能把数据仓库建好。...

2020-10-10 20:18:35 665

原创数据仓库【人物篇】

数据仓库领域，在业界有几位公认大牛。第一位 William H. (Bill) Inmon，数据仓库之父，开山鼻祖，著书立说，培训演讲，出版了许多书。我在这里推荐Building the Data Warehouse这本书，第四版出版于2005。他推崇使用Corporate Information Factory（CIF）的数据建模方法（使用范式模型构建企业数据仓库+各维度模型构建的业务主题数据集市），最近在新的数据仓库架构和实施方面和后起之秀Dan Linstedt合作推动新的...

2020-10-10 20:16:12 299

原创《大数据之路：阿里巴巴大数据实践》读书笔记---第四篇数据应用篇

四、数据应用篇16.数据应用本篇主要介绍两个应用：提供给外部商家使用的数据产品平台-生意参谋和服务于阿里巴巴内部的数据产品平台16.1 生意参谋作为大数据公司，阿里巴巴在推动业务数据化的同时，也在不断地帮助商家实现数据业务化。在对外产品方面，阿里巴巴以“生意参谋”作为官方统一的数据产品平台，为商家提供多种多样化，普惠性的数据赋能；截止2016财年，生意参谋累计服务商家已超过2000万，越服务商家超过500万。在月成交额30W元以上的商家中，逾90%每月登陆天次超2...

2020-09-11 17:00:18 532

原创《大数据之路：阿里巴巴大数据实践》第四篇数据应用篇-读书笔记

16.数据应用本篇主要介绍两个应用：提供给外部商家使用的数据产品平台-生意参谋和服务于阿里巴巴内部的数据产品平台16.1 生意参谋作为大数据公司，阿里巴巴在推动业务数据化的同时，也在不断地帮助商家实现数据业务化。在对外产品方面，阿里巴巴以“生意参谋”作为官方统一的数据产品平台，为商家提供多种多样化，普惠性的数据赋能；截止2016财年，生意参谋累计服务商家已超过2000万，越服务商家超过500万。在月成交额30W元以上的商家中，逾90%每月登陆天次超20次；

2020-09-11 14:51:19 644

原创《大数据之路：阿里巴巴大数据实践》第三篇数据管理篇-读书笔记

12.元数据12.1 元数据概念12.1.1 元数据定义按照传统的定义，元数据（Metadata）是关于数据的数据。元数据打通了源数据、数据仓库、数据应用，记录了数据从产生到消费的全过程。元数据主要记录数据仓库中的模型的定义、各层级间的映射关系、监控数据仓库的数据状态一级ETL的任务运行状态。在数据仓库系统中，元数据可以帮助数据仓库管理员和开发人员非常方便的找到他们所关心的数据，用于指导其进行数据管理和开发工作，提高工作效率。元数据可以分为技术元数据和业务元数据。* 技术元数据

2020-09-10 10:41:17 1691

原创《大数据之路：阿里巴巴大数据实践》第二篇数据模型篇-读书笔记

为什么需要数据建模* 性能：良好的数据模型能帮助我们快速查询所需要的数据，减少数据的I/O吞吐。* 成本：良好的数据模型能极大地减少不必要的数据冗余，也能实现计算结果复用，极大地降低大数据系统中的存储和计算成本。* 效率：良好的数据模型能极大地改善用户使用数据的体验，提高使用数据的效率。* 质量：良好的数据模型能改善数据统计口径的不一致，减少数据计算错误的可能性。因此，毋庸置疑，大数据系统需要数据模型方法来帮助更好地组织和存储数据，以便在性能、成本、效率和质量之间取得最佳平衡。

2020-09-09 22:56:57 1485

原创《大数据之路：阿里巴巴大数据实践》第一篇数据技术篇-读书笔记

2.日志采集本章主要介绍数据采集中的日志采集部分，阿里巴巴的日志采集体系方案包括两大体系：Aplus.JS是Web端（基于浏览器）日志采集技术方案；UserTrack是APP端（无线客户端）日志采集技术方案。本章从浏览器的页面日志采集、无线客户端的日志采集以及我们遇到的日志采集挑战三块内容来阐述阿里巴巴的日志采集经验。

2020-09-09 22:28:56 824

原创《大数据之路：阿里巴巴大数据实践》总述-读书笔记

今天花了些时间较为详细的阅读了《大数据之路：阿里巴巴大数据实践》，主要内容如下及后续篇幅。从下至上依次分为数据采集层、数据计算层、数据服务层、数据应用层。　　数据采集层：以DataX为代表的数据同步工具和同步中心。　　数据计算层：以MaxComputer为代表的离线数据存储和计算平台。　　数据服务层：以RDS为代表的数据库服务（接口或者视图形式的数据服务）。　　数据应用层：包含流量分析平台等数据应用工具。

2020-09-08 21:19:59 792

原创 ClickHosue 常用函数

1.日期类函数1.1 日期或时间日期生成函数1.3 时间或日期截取函数（toStartOf）—— 返回日期2.类型转化类函数2.1 精度保留（非四舍五入）2.2 字符串转化为整数（非整数的字符串返回0）2.3 日期与时间日期转化2.4 转化为字符型2.5 查看数据类型3.字符串操作3.1 基本字符串操作3.2 字符串查找3.3 字符串替换3.4 字符串分割3.5 字符串拼接4.算数函数5.比较函数6.逻辑函数7. 条件语句8. 数学函数9. 舍入函数10. 表操作

2020-08-14 21:05:28 1013

原创 ClickHouse 为何如此之快

我们都知道，框架的设计可以分为自顶向下和自下而上，在传统观念中，或者说在我的观念中，做架构设计首先自然做的是顶层设计:事先应该做高层次的抽象设计;规划好各个模块的职责、切分的界面；分配好工程结构、包结构，最好能再来一些设计图，等等。而ClickHouse的设计，则采用了自下而上。他们是如何实践自下而上设计的呢？从硬件功能层面着手设计，在设计伊始，就至少需要想清楚这么几个问题：我们将要使用的硬件水平是怎样的？包括CPU、内存、硬盘、网络等等；在这样的硬件上，我们需要达到怎样的性能？包括延

2020-08-12 23:59:15 1458

原创 ClickHouse 高阶详解

1、Explain 查看执行计划1.1 基本语法1.2 案例实操1.2.1 新版本使用 EXPLAIN2、建表优化2.1 数据类型2.1.1 时间字段的类型2.1.2 空值存储类型2.2 分区和索引2.3 表参数2.4 写入和删除优化2.5 常见配置2.5.1 CPU 资源2.5.2 内存资源2.5.3 存储3、ClickHouse 语法优化规则3.1 COUNT 优化3.4 聚合计算外推3.5 聚合函数消除3.6 删除重复的 order by key3.7 删除重

2020-08-12 23:40:52 4729

原创 ClickHouse 副本和分片

1.副本1.1 副本写入流程1.2 配置步骤2.分片集群

2020-08-12 21:35:57 2887 2

原创 ClickHouse SQL操作

1.CREATE1.1 CREATE DATABASE1.2 CREATE TABLE2.INSERT INTO3.Update 和 Delete4.SELECT 操作5. ALTER 操作6.DESCRIBE TABLE

2020-08-12 00:35:24 6340

原创 ClickHouse 表引擎

0、表引擎是 ClickHouse 的一大特色。可以说，表引擎决定了如何存储表的数据。包括:* 数据的存储方式和位置，写到哪里以及从哪里读取数据。* 支持哪些查询以及如何支持。* 并发数据访问。* 索引的使用（如果存在）。* 是否可以执行多线程请求。* 数据复制参数。表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎，以及引擎使用的相关参数。 ClickHouse的表引擎有很多，下面介绍常用几种，对其他引擎有兴趣的可以去查阅官方文档：https://clickhouse

2020-08-11 22:59:44 1411

原创 ClickHouse 数据类型

1.整型2.浮点型3. 布尔型4.Decimal 型5.字符串5.1 String5.2 FixedString(N)6.枚举类型7.时间类型8.数组

2020-08-10 08:57:24 846

原创 ClickHouse 安装部署

1.安装前的准备1.1 CentOS取消打开文件数限制在/etc/security/limits.conf、/etc/security/limits.d/90-nproc.conf 这2个文件的末尾加入一下内容：1.2 CentOS取消SELINUX1.3 关闭防火墙1.4 安装依赖2.安装部署2.1 网址2.2 单机模式2.3 分布式集群安装2.3.1 在hadoop103，hadoop104上面执行之前的所有步骤2.3.2 三台机器修改配置文件config.xml2.3.3 在三台

2020-08-10 00:35:38 1604

原创 ClickHouse 概述

1.ClickHouse 概述* ClickHouse 是俄罗斯的Yandex(欧洲最大的互联网公司之一)于2016年开源的列式存储数据库(DBMS)，使用C++语言编写，主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。* 为什么叫ClickHouse：Click Stram+Data WareHouse

2020-08-10 00:30:30 972

原创数据仓库之主题

数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。其实数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程，可以分为三层——源数据、数据仓库、数据应用：　　从图中可以看出数...

2020-07-25 22:51:55 3062

空空如也

空空如也