sinat_28472983-CSDN博客

转载 kimball维度建模步骤

业务需求维度模型1.业务处理2.粒度3.维度4.事实（数据实际）首先对业务进行描述，以使建立的维度与事实表更容易理解。在对业务实例研究进行描述之后，现在就可以开始维度建模的设计工作了。第一步:选取业务处理设计工作的第一步使，通过将对业务需求的理解与对可用数据的理解组合起来而确定建模的业务处理内容。建立的第一个维度模型应该是一个最有影响的模型--它应该对最紧迫的业务问题...

2018-11-09 11:48:45 7123

原创 * Oracle执行计划——表连接方式&oracle访问数据方式

1. 全表扫描：指oracle在访问目标表里的数据时，会从该表所占用的第一个区（EXTENT）的第一个块（BLOCK）开始扫描，一直扫描到该表的高水位线(HWM, High Water Mark)，这段范围内所有的数据块oracle都必须读到（高水位线会随分配给表的现有空间不足而向上移动；但delete后高水位线不会随之向下移动，就算delete所有数据，高水位线还是在原来的位置）2. R...

2018-09-12 17:14:32 644

原创 Oracle——分析函数

目录基本语法求部门工资的累加查询每个部门最高工资和最低工资按工资排序并创建序号基本语法函数名称([参数,...]) over (partition by 子句字段,...[order by 子句字段,... [ASC|DESC] [NULLS FIRST|NULLS LAST][WINDOWING 子句]);函数名称：类似于统计函数（COUNT...

2018-08-30 17:18:38 157

转载数据仓库——关系模型和维度模型

大神Inmon的《数据仓库》和kimball《数据仓库工具箱》算是两个经典吧，最近出了本很厚的《数据仓库与商业智能宝典》，但也是人家kimball以前经典文章的合集。关系建模又叫ER建模，是数据仓库之父Inmon推崇的，其从全企业的高度设计一个3NF模型的方法，用实体加关系描述的数据模型描述企业业务架构，在范式理论上符合3NF，其是站在企业角度进行面向主题的抽象，而不是针对某个具体业务流...

2018-07-07 09:59:40 7734

转载 linux：find-文件查找、grep-文件内容查找

在使用linux时，经常需要进行文件查找。其中查找的命令主要有find和grep。两个命令是有区的。　　区别：(1)find命令是根据文件的属性进行查找，如文件名，文件大小，所有者，所属组，是否为空，访问时间，修改时间等。 (2)grep是根据文件的内容进行查找，会对文件的每一行按照给定的模式(patter)进行匹配查找。　　一.find命令　　　　基...

2018-12-12 14:42:43 574

转载数据仓库——阿里五层模型架构

目录1. ODS 数据准备层2. DWD 数据明细层3. DW(B/S) 数据汇总层4. DM 数据集市层5. ST 数据应用层解码OneData，阿里的数仓之路 1. ODS 数据准备层功能：ODS层是数据仓库准备区，为DWD层提供基础原始数据，可减少对业务系统的影响建模方式及原则：从业务系统增量抽取、保留时间由业务需求决定、可分表进行周期存储、数据...

2018-12-04 16:11:14 37012 1

转载 Oracle里SQL优化的方法论

Oracle数据库里SQL优化方法论的第一点：Oracle里SQL优化的本质是基于对CBO和执行计划的深刻理解。Oracle数据库里SQL优化的终极目标就是要缩短目标SQL语句的执行时间。1.降低目标SQL语句的资源消耗改写SQL降低目标SQL语句的资源消耗，不更改业务逻辑不改写SQL但通过调整执行计划或相关表的数据来降低目标SQL语句的资源消耗2. 并行执行目标SQL语句平衡...

2018-11-27 20:13:12 342

转载常用SQL-on-Hadoop产品：Hive、SparkSQL、Impala、HAWQ

常用SQL-on-Hadoop产品的不足1. Hive Hive是最老牌的一款Hadoop数据仓库产品，更够部署在所有Hadoop发行版本之上。它在MapReduce计算框架上封装一个SQL语义层，极大简化了MR程序的开发。直到现在，Hive以其稳定性依然赢得大量用户。但是Hive的缺点也很明显——速度太慢。随着技术的不断进步，Hive的执行引擎也从最初的M...

2018-11-23 11:35:37 1463

数据仓库中的事实表总是在变化中，通常是新的业务数据不断装载入DW。事实表数据的增加是正常现象，也无需特别处理。但很多时候维度表的数据也会发生变化，且维度表的数据变化会导致维度表和事实表的关系发生变化。因此对于维度变化，该如何设计维度表，是本文要讨论的问题。例如一个订单事实表和一个客户维度表，每个订单有一个对应的客户。在今年5月17日之前，客户维度表中某客户的类别是corporate，5月18日...

2018-11-23 10:56:24 2219

原创 spark与Hadoop比较

spark与Hadoop的比较 Hadoop应用场景：离线处理，对时效性要求不高硬盘spark应用场景：基于内存时效性要求高的场景，机器学习等领域比较spark不具有HDFS等存储能力，要借助HDFS等持久化数据...

2018-11-22 23:05:25 195

原创 Spark

spark是一个快速且通用的集群计算平台上park是快速的 spark扩充了流行的mapreduce计算模型spark是基于内存的计算 spark是通用的spark的设计容纳了其他分布式系统拥有的功能：批处理，迭代式计算，交互查询和流处理等优点：降低了维护成本 spark是高度开放的提供了python，Java，Scala，sql的API和丰富的内置...

2018-11-22 22:59:44 344

转载 JOIN关联表中on、where后面跟条件的区别-待整理

select * fromtd left join (select case_id as sup_case_id , count(*) supervise_number from td_kcdc_case_sup_info group by case_id ) sup on sup.sup_case_id = td.case_id where 1=1 /*...

2018-11-22 20:12:16 2523

转载 In、or、exists、not in、not exists

目录in和or：没有索引或主键时，随数据量增多，or性能急剧下降in和exists：主表小、子表大用exists；主表大、子表小用innot in和not exists：无论哪个表大，not exists都比not in快in和or：没有索引或主键时，随数据量增多，or性能急剧下降前提条件：所在的列是否有索引或者主键。in和or所在列有索引或主键：or和in没啥差别，执行计...

2018-11-22 18:03:18 442

转载 Oracle执行计划变更

SQL执行计划变更导致数据库负载突升。Oracle的CBO模式会根据字段的取值比重调整对应的执行计划，无论如何，都会选择成本值最低的一个执行计划，这也是CBO优于以前RBO的地方，这里仅用于实验，因为一般OLTP的应用会使用绑定变量的写法，不会像上面这种使用常量值的写法，11g之前，可能带来的一些负面影响就是绑定变量窥探的作用，即对于使用绑定变量窥探的SQL语句，Oracle会根据第一次执行使用的...

2018-11-21 16:33:27 2116

原创 Oracle统计信息

统计信息概念及分类Oracle统计信息是存储在数据字典里的一组数据，从多个维度描述了oracle数据库里对象的详细信息。CBO会利用这些统计信息来计算目标SQL各种可能的、不同的执行路径成本，并从中选择一条成本值最小的执行路径来作为目标SQL的执行计划oracle数据库里的统计信息分为以下6种类型：表的统计信息：描述表的详细信息，如记录数、表块（表里的数据块数量）的数量、平均行长度等...

2018-11-20 20:23:38 1654

转载 Oracle——高级排序函数 & 高级分组函数

高级排序函数[ ROW_NUMBER()| RANK() | DENSE_RANK ] OVER (partition by xx order by xx)1.row_number() 连续且递增的数字 1 2 3 4 row_number() over (partition by xx order by xx ) --学生表中按照所在专业分组，同专业内按成绩倒序排序，成绩相同...

2018-11-13 10:47:14 233

原创 PL/SQL——动态SQL & 游标

动态SQL1. 使用动态SQL可以在依赖对象不存在时创建子程序2. 动态SQL主要利用execute immediate语句执行DML、DDL、DCL等语句操作3. 如果使用了绑定变量，则必须在execute immediate中使用using字句设置所需要的绑定变量4. 使用returning或return语句可以接收查询或更新后的返回结果4. 使用批处理可以一次性将数据库之...

2018-11-06 10:57:51 291

转载专栏笔记：基于hadoop生态圈的数据仓库实践

原专栏地址：https://blog.csdn.net/column/details/hadoop-dw.html?&page=2概述数据仓库是一个面向主题的、集成的、随时间变化的、非易失的数据集合，用于支持决策。它主要的目标是分析和处理数据，和传统的操作型事务处理有很大区别。之所以不直接在操作型系统上执行分析查询，而是从操作型系统抽取数据，最主要有以下两个原因：（1）在操作型...

2018-11-05 11:15:25 220

转载 oracle——connect by level

connect by 层级查询用于存在父子，祖孙，上下级等层级关系的数据表进行层级查询　　语法格式:　　　　{ CONNECT BY [ NOCYCLE ] condition [AND condition]... [ START WITH condition ]　　　　| START WITH condition CONNECT BY [ NOCYCLE ] condition...

2018-11-02 15:19:55 1418

原创 python——数据获取

目录 1. 从键盘获取数据2. 从文本文件获取数据0.列表：列表是对象的有序集合，内容及长度可变 a = [1, 3, 5, 7]元组：内容不可修改 a = (1, 3, 5, 7)字典：{键:值} dict = {'abc':123, 98.6:37}set：无序无重复元素的集合 s = set ([1, 2, 3]) 1. 从键盘获取数据lin...

2018-11-01 19:52:49 1305

原创 Python——安装Pycharm、cx_Oracle、pandas、beautifulsoap

安装Pycharm1. 首先去Pycharm官网，或者直接输入网址：http://www.jetbrains.com/pycharm/download/#section=windows，下载PyCharm安装包，professional2. 安装完成后勾选do not import settings3. 激活时未找到license server，最终修改host，选择的activati...

2018-10-31 11:26:24 3591

原创 python 连接数据库

Python DB API python程序连接数据库服务器的工具，统一了oracle、mysql等，包括数据库连接对象connection、数据库交互对象cursor和数据库异常类exceptions ...

2018-10-30 21:16:05 171

原创 Oracle日期函数

Oracle常用日期函数常用的时间格式掩码如下： TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits ...

2018-10-24 19:38:06 175

原创 PL/SQL

基本概念SQL：结构化查询语言(Structured Query Language)PL/SQL：过程化SQL语言（Procedural Language/SQL）。是Oracle数据库对SQL语句的扩展。在普通SQL语句的使用上增加了编程语言的特点，所以PL/SQL把数据操作和查询语句组织在PL/SQL代码的过程性单元中，通过逻辑判断、循环等操作实现复杂的功能或者计算。PL/SQL 只有...

2018-10-22 13:20:36 111

转载 PLSQL优化：运用Profiler分析存储过程性能

由于用的是PLSQL Developer 客户端工具，而网上大多介绍的是通过手工方法应用Profiler，使用相对比较烦杂，大致是通过命令行，以SYS用户首先创建dbms_profiler包，而且还要创建一个用于存放跟踪信息的用户，及其prof表和序列的同义词，最后用profiler用户创建prof表和序列，并赋权下面将详细介绍在PLSQL DEVELOPER 应用Profiler：...

2018-10-22 10:09:57 2575

原创 Informatica优化 - DTM Buffer Size

缓冲区内存概览运行会话时，集成服务进程会启动 Data Transformation Manager (DTM)。 DTM 根据会话属性中的“DTM 缓冲区大小”设置在运行时为会话分配缓冲区内存。DTM 根据会话属性的“默认缓冲区块大小”设置中的配置将内存划分为多个缓冲区块。读取器、转换和写入器线程使用缓冲区块将数据从源移至目标。缓冲区块大小应大于源或目标中最大数据行的精度。...

2018-10-19 13:44:29 2019

转载 oracle中delete、truncate、drop的区别

一、delete1、delete是DML，执行delete操作时，每次从表中删除一行，并且同时将该行的的删除操作记录在redo和undo表空间中以便进行回滚（rollback）和重做操作，但要注意表空间要足够大，需要手动提交（commit）操作才能生效，可以通过rollback撤消操作。2、delete可根据条件删除表中满足条件的数据，如果不指定where子句，那么删除表中所有记录。3...

2018-09-27 18:23:09 427

原创 SQL优化案例-待续

一、DBA获取TOPAS：查看系统资源使用状况有无异常方法：用root用户登陆核心应用系统；su - oracle；执行命令 topas1.Idle%：是cpu的空闲率2.PID：进程唯一标示符3.CPU%：该进程所占用的cpu的百分比二、DBA获取AWR报告：执行脚本$ORACLE_HOME/rdbms/admin/awrsqrpt.sqlSQL ordered...

2018-09-26 11:08:36 564

转载 Mysql优化经典案例

场景我用的数据库是mysql5.6，下面简单的介绍下场景课程表create table Course( c_id int PRIMARY KEY, name varchar(10))数据100条学生表:create table Student( id int PRIMARY KEY, name varchar(1...

2018-09-17 17:08:27 5388 6

原创 Left Join & Right Join

select * from test1 left join test2 on (test1.id = test2.id)；select * from test1，test2 where test1.id = test2.id(+);test1 test2 → * 关键字“(+)”表示会以NULL值填充不满足相等的连接条件的相关列（NAME_1），以(+)对面的表...

2018-09-14 13:52:59 126

转载面试题收集

outline 已淘汰profile只能固定一个执行计划baseline可以固定多个执行计划 1. compare and contrast truncate and delete for a table答：（1）truncate 是DDL操作，且删除的数据信息不计入redo log，效率高； delete DML操作，删除的信息写入redo log，效率低（2）tru...

2018-09-12 17:19:33 135

转载 Date Vault概念

Data Vault模型是由业务键（Hub）、业务关系（Link）、业务描述（Satellite）组成的源数据库模型（3NF）如下图：星型模型如下图：Data Vault模型如下图：说明：星型模型（star schema）的事实表采取了完全规范化的第三范式（3NF）模型，而维表采取了第二范式的设计模型。有时也会把维表的设计规范化，就成了所谓的雪花模型（...

2018-09-12 17:19:16 3387

转载 oracle instr函数(oracle 用instr 来代替 like)——未完善

oracle instr函数对于instr函数，我们经常这样使用：从一个字符串中查找指定子串的位置。例如：SQL> select instr('oracle','or') position from dual;POSITION---------- 1从字符串'oracle'的第一个位置开始，向后查找第一个出现子串'or'出现的位置。其实instr共有...

2018-09-12 17:19:00 1991

转载数据仓库维度建模

概述数据仓库包含的内容很多，它可以包括架构、建模和方法论。对应到具体工作中的话，它可以包含下面的这些内容：以Hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法，如维度建模。调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大，在数据仓库体系中，数据模型的核心地位是不可替代的。因此，下面的将详细地阐述数据建模...

2018-09-12 17:18:33 257

转载 Oracle执行计划——查看执行计划的方法

（1）什么是执行计划SQL是一种傻瓜式语言，每一个条件就是一个需求，访问的顺序不同就形成了不同的执行计划。Oracle必须做出选择，一次只能有一种访问路径。执行计划是一条查询语句在Oracle中的执行过程或访问路径的描述。（2）执行计划的选择通常一条SQL有多个执行计划，那我们如何选择？那种执行开销更低，就意味着性能更好，速度更快，我们就选哪一种，这个过程叫做Oracle的解析过程，然后...

2018-09-12 17:17:43 73114 2

原创 Oracle行列转换汇总

1.行转列：pivot 、case when 或 decode **informatica normalizer transformation也可以实现行列转换** pivot（聚合函数 for 列名 in（类型））: pivot ( sum ( planqty ) for plantype in ( 'in', 'out' ) ) --有聚合函数 unp...

2018-09-11 20:22:52 5838 1

转载 Oracle正则表达式

元字符字符含义举例说明 ^ 匹配字符串的开始位置(在[]中使用，此时它表示不接受该字符集合。 ^a：匹配以a开始的字符串 [^a]：匹配不含a的字符串 - 当使用在a-m表示范围；当使用在第一个字符时表示连字符...

2018-09-11 20:13:41 2595

原创 SQL: union all 包含重复数据但比union快

在数据库中，union和union all关键字都是将两个结果集合并为一个，union all 包含重复数据但比union快。 union：在进行表链接后会筛选掉重复的记录，所以在表链接后会对所产生的结果集进行排序运算，删除重复的记录再返回结果，如果表数据量大的话可能会导致用磁盘进行排序。必须包含同样列数、顺序、数据类型union all：简单将结果合并后返回，包含重复数据。 ...

2018-08-06 15:04:39 2854

原创知识点整理

第一范式第二范式第三范式第三范式(Third Normal Form,3rd NF)就是指表中的所有数据元素不但要能惟一地被主关键字所标识,而且它们之间还必须相互独立,不存在其他的函数关系。也就是说，对于一个满足2nd NF 的数据结构来说，表中有可能存在某些数据元素依赖于其他非关键字数据元素的现象,必须消除。--------------------------------------------...

2018-07-07 11:17:32 154

原创 python_

1. 传递可变数目的参数：参数列表末尾添加**kwargs，python将获取用户传递给函数的任何值，并把他们存储在字典数据类型中。

2018-03-13 16:34:20 120

空空如也

空空如也