自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DW/BI专栏

DW/BI 相关博客

  • 博客(14)
  • 资源 (6)
  • 收藏
  • 关注

原创 OGG Defgen 使用方法

使用OGG抽取Oracle数据,有时 我们需要在Replication端设置SourceDefs属性,这样Replicat才能正确解析Trail流。OGG提供了defgen工具帮我们提取源端的表定义信息。如果大家在启动Replication时遇到cannot find source definition这样的error,一般需要指定SourceDefs属性,该属性值对应表结构的定义文件,需要使

2016-10-23 18:41:49 7872 1

原创 Oralce GoldenGate与Kafka集群集成

本文介绍如何配置Oracle GoldenGate 同步数据到Kafka,包括OGG源端安装配置,OGG for Big Data replication安装配置,以及如何与Kafka集群集成。OGG& Kafka安装部署软件准备1.     Oracle11.2.0.2 生产环境运行的Oracle Server版本2. Or

2016-10-22 20:40:49 9453 1

翻译 ETL系列专题6——Load之FactLoad

ETL系列专题5——Load之[email protected]事实表包含企业业务分析所需要的量度,通常表现为数值型数据。那么事实表和量度的关系怎样?可以这么理解,如果有一个量度,那么它会存在于事实表中的一行记录中。事实表的基本结构事实表的粒度,我们知道事实表的粒度可以通过维度外键来确定。但是确定事实表数据粒度的正确次序应该首先从量度实际发生的现实

2013-07-12 16:45:55 993 1

转载 SQL Server 执行连接的方式 - Hash Join

The hash join has two inputs: the build input and probe input. The query optimizer assigns these roles so that the smaller of the two inputs is the build input.Hash joins are used for many types of

2013-06-25 13:13:32 1070

转载 SQL Server 执行连接的方式 - Merge Join

The merge join requires both inputs to be sorted on the merge columns, which are defined by the equality (ON) clauses of the join predicate. The query optimizer typically scans an index, if one exists

2013-06-25 13:09:40 960

转载 SQL Server 执行连接的方式 - Nested Loops Joins

The nested loops join, also called nested iteration, uses one join input as the outer input table (shown as the top input in the graphical execution plan) and one as the inner (bottom) input table.

2013-06-25 13:08:09 652

翻译 ETL系列专题5——L之DimLoad

ETL系列专题5——Load之[email protected](Load),装载,就是把准备好的数据加载到Star-Schema。Kimball把这个步骤称作Delivery,这个词在软件业务中更专业,但是Load是从数据流角度的直观理解。其实笔者更喜欢Delivery这种说法,Delivery包含了除数据交付之外更多的涵义(ETL处理之后的交付物是加载

2013-06-23 11:42:35 1259

翻译 ETL系列专题4——ETL之T

ETL系列专题4——ETL之T转换(Transform),是ETL过程中最复杂的部分,ETL中E和L都非常容易理解,Extract从源系统中提取数据,Load将数据载入星型模型。而转换的过程涉及到更多的内容,Kimball把这个过程拆解为清洗(Clean)和统一化(Conform), 这样更容易从数据流的角度去理解ETL过程,实际工作中,我们一般把这两项工作在物理上作为一个过程来处理,比如

2013-06-17 22:08:08 2479

翻译 ETL系列专题 1——DW/BI的基石

ETL系列专题 1——DW/BI的基石Warren [email protected]在DW领域中真的不敢说有什么大的经验,因为之前一起工作的中外同事都不知道要比我高深多少。如果说他们是太平洋,我充其量就是我现在身边的这杯水,还被我喝掉了半瓶!开始想写时还真不知道写点什么?那就索性先写点ETL的东西吧,该系列将主要介绍Kimball ETL架构理论,期间会加入笔者的一些拙劣想法或

2013-06-15 17:57:05 1763

翻译 ETL系列专题2——ETL中的数据结构

数据结构这个名词对计算机科学专业的同行一定十分熟悉,在我们工作中也是无处不在地使用数据结构,本章节首先介绍一下数据结构的概念和主要作用(请大家忍受一下笔者的啰嗦),然后着重介绍一下数据结构在ETL中的使用。什么是数据结构数据结构是针对数据的组织与存储需要而设计的一种数据格式。常见的数据结构类型有数组,文件,记录,线性表,链表,树,图等等。任何一种数据结构的选择和设计的目的都是为了更加方便地

2013-06-15 17:45:53 1991

原创 ETL系列专题3——ETL之E

ETL系列专题3——ETL之E从本章开始介绍基于ETL的数据流架构,首先介绍E(Extract)过程。抽取(Extract)没有数据,DW/BI的模型再好也没有任何用处。数据集成的第一个步骤就是从业务系统中抽取(Extract)数据。伴随着企业的蓬勃发展,业务的不断扩张,相应的信息系统也随之多种多样:销售管理系统,供应链系统,库存系统,产品控制系统……这些系统通常来自于不同软件供应商,

2013-06-15 14:29:49 2186

转载 ETL 38子系统

To create a successful data warehouse, rely on best practices, not intuition.Three little letters -- E,T, and L -- obscure the reality of 38 subsystems vital to successful data warehousing.By Ra

2013-06-10 14:56:43 623

原创 DBMS索引的选择

约定:这里以SQL Server 2008 DB Engine为环境问题:这是一家公司的面试问题有一张表结构如下tbl(     col1 int ,col2 intcol3 int)1。在col1上有non clustered index,表上没有其他约束假设col1上有=1的这条记录那么下面的query是否会使用索引select *from tb

2013-06-08 11:23:27 798

原创 怎么理解数据仓库中的元数据

在讨论组里看到很多同行,朋友和DW爱好者们讨论元数据,这里本人就元数据的理解和大家分享一下,如有偏差欢迎批评指正。元数据——“关于数据的数据”这个概念大家都知道了,但是如何理解这个关于数据的数据呢?从概念上我们可以看出,当我们说元数据时,必须有个参照,就是“关于的那个数据”,即这个概念里面有两个“数据”,我们不能孤立地说某个数据是元数据,只能说某个数据(Data A)是另外某个数据的元数据

2013-05-07 17:53:50 1189

Teradata FS LDM

TERADATA Financial Service Logical data model release 10.0

2019-01-28

ETL系列专题2 ETL数据结构

ETL架构设计系列,介绍ETL Staging Area架构原则和常用数据结构

2013-06-12

ETL,DW/BI的基石

ETL设计文档,介绍了ETL架构实施的两条主线,主线中涉及的相关核心步骤,以及各个步骤中需要完成的工作任务。

2013-06-10

ETL开发CaseStudy-SSIS版之相关代码

ETL开发CaseStudy-SSIS版之相关代码

2013-04-19

ETL开发CaseStudy-SSIS版

MS ETL开发指南,以SQL Server为数据源,Oracle 10为DataMart,AdventureWorks数据为示例,说明SSIS开发过程,包裹维度表处理,事实表处理,增量提取方法,参数配置,ETL作业部署与调度等。

2013-04-19

Data Warehouse Lifecycle Toolkit (Second Edition)

Kimball 经典著作,对DW/BI项目开发流程控制的详细解读。

2011-08-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除