follweme888-CSDN博客

转载数据仓库常见建模方法与建模实例

1.数据仓库建模的目的？为什么要进行数据仓库建模？大数据的数仓建模是通过建模的方法更好的组织、存储数据，以便在性能、成本、效率和数据质量之间找到最佳平衡点。一般主要从下面四点考虑访问性能：能够快速查询所需的数据，减少数据I/O 数据成本：减少不必要的数据冗余，实现计算结果数据复用，降低大数据系统中的存储成本和计算...

2020-07-04 23:12:57 3083

转载浅谈数据治理、数据管理、数据资源与数据资产管理内涵及差异点

前言随着信息技术的不断涌现和普及，业务发展加快了数据膨胀的速度，行业内衍生了较多的新名词，如数据治理、数据管理、数据资源管理、数据资产管理等名词的定义很多，概念容易混淆，本文对这些名词术语及内涵进行系统的解析，便于读者对数据相关的概念有全面的认识。一数据与数据管理（Data and Data Management）1.1数据数据（Data）是指所有能输入到计算机并被计算机程序处理的符号的介质的总称，是用于输入电子计算机进行处理，具有一定意义的数字、字母、符号和模拟量等的通称，是组成信息系统的最基本要素。未

2020-07-04 22:53:52 851

转载数据仓库项目需求分析

一、简述数据仓库项目是一个复杂的过程，项目的开发涉及到多方面的问题和风险：技术风险、数据质量问题、项目管理问题，但最项目中中最隐蔽、最容易忽略、最难控制的一环，就是需求的调研和分析。需求分析不深入、不准确的结果就是系统完成后没有人愿意使用它。因此我们要采取有效的措施的来避免这种情况。二、需求分析的原则1、让用户参与，尽力让用户的高层参与，双方要紧密配合2、要迅速、全面的理解用户的业务及工作流程3、培训，要不停的向用户灌输数据仓库与传统业务系统的不同做法4、不要求完美，而要求实用，应用将是螺旋上升

2020-07-04 22:27:55 842

转载大数据

1、大数据流程图2、大数据各个环节主要技术2.1、数据处理主要技术　　　　Sqoop：（发音：skup）作为一款开源的离线数据传输工具，主要用于Hadoop(Hive) 与传统数据库（MySql,PostgreSQL）间的数据传递。它可以将一个关系数据库中数据导入Hadoop的HDFS中，也可以将HDFS中的数据导入关系型数据库中。Flume：实时数据采集的一个开源框架，它是Cloudera提供的一个高可用用的、高可靠、分布式的海量日志采集、聚合和传输的系统。目前已经是Apache的顶级子项目。使

2020-06-26 02:28:41 605

转载 hive优化

1.1 hive的特征：可以通过SQL轻松访问数据的工具，从而实现数据仓库任务，如提取/转换/加载（ETL），报告和数据分析；它可以使已经存储的数据结构化；可以直接访问存储在Apache HDFS或其他数据存储系统（如Apache HBase）中的文件；Hive除了支持MapReduce计算引擎，还支持Spark和Tez这两种分布式计算引擎；它提供类似sql的查询语句HiveQL对数据进行分析处理；数据的存储格式有多种，比如数据源是二进制格式，普通文本格式等等；1.2 hive的优势：　　h

2020-06-26 00:04:26 205

转载 Hive数据倾斜解决方法总结

Hive数据倾斜解决方法总结数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候，如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候，某些节点的计算能力比较强或者需要计算的数据比较少，早早执行完了，某些节点计算的能力较差或者由于此节点需要计算的数据比较多，导致出现其他节点的reduce阶段任务执行完成，但是这种节点的数据处理任务还没有执行完成。在hive中产生数据倾斜的原因和解决方法：

2020-06-25 22:58:50 446

转载 hive性能优化

1.概述　　继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍　　首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等U

2020-06-25 22:11:44 164

转载 Hive性能调优总结

一、Fetch抓取1、理论分析Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查找等都不走map

2020-06-25 21:43:40 747

转载 HIVE的执行顺序

hive语句执行顺序msyql语句执行顺序代码写的顺序：select ... from... where.... group by... having......

2020-06-25 21:18:56 2577

转载查看Hql执行计划及关键步骤说明

1、查看执行计划方法语法：explain [extended] Hiveql;/*例子：*/explain select count(distinct mo...

2020-06-25 21:10:29 680

转载 hive sql调优

hive SQL调优1.尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段2.尽量原子化操作，尽量避免一个SQL包含复杂逻辑, 可以使用中间表来完成复杂的逻辑3.小表要注意放在join的左边（目前TCL里面很多都小表放在join的右边。否则会引起磁盘和内存的大量消耗4.如果union all的部分个数大于2，或者每个union部分数据量大，应该拆成多个insert into 语句，实际测试过程中，执行时间能提升50%5.写SQL要先了解数据本身的特点，如果有j

2020-06-25 15:17:06 286

转载 Hive SQL调优总结

这里只是总结了一下HQL上面的一些优化点，并不考虑Hadoop层面的参数、配置优化目录Hive SQL调优总结目录使用分区剪裁、列剪裁少用count（distinct）多对多的关联合理使用MapJoin合理使用Union ALL并行执行job使用本地MR合理使用动态分区避免数据倾斜控制Map数和Reduce数中间结果压缩其他使用分区剪裁、列剪裁意思是，在select中，只拿需要的列，如果有，尽量使用分区过滤，少使用select *另外在分区裁剪中，当使

2020-06-25 15:14:53 343

转载 Hive调优策略——Fetch抓取 & 表的各种优化策略（mapjoin原理）

总结一下工作中常用的hive调优策略目录1. Fetch抓取2. 小表Join大表（mapjoin的原理）3. 大表Join大表（0）前提：配置历史服务器（1）空key过滤（2）空key转换（将空值key转换为其他随机数，避免数据倾斜）4. Group By发生数据倾斜5. Coun...

2020-06-25 15:01:04 287

转载 MapReduce实现SQL的操作原理

本来想讲一下hive的一条SQL怎么转换成MapReduce的，但是想了一下还是先讲讲一条SQL语句怎么用MapReduce来执行join的实现原理select ply.policy_date,sale.ply_sale_name from ply_base_info ply join ply_sale sale on ply.policy_no=sale.policy_no1在map的输出value中为不同表的数据打上tag标记，在reduce阶段根据tag判断数据来源。MapReduce的过程如.

2020-06-25 14:55:13 158

转载 apReduce：详解Shuffle过程

MapReduce：详解Shuffle过程 ...

2020-06-24 02:23:45 255

转载 MapReduce详解之shuffle阶段

MapReduce详解之shuffle阶段（看图理解）：Mapreduce的过程整体上分为四个阶段：InputFormat MapTask ReduceTask OutPutFormat 当然中间还有shuffle阶段InputFormat:我们通过在runner类中用 job.setInputPaths 或者是addInputPath添加输入文件或者是目录（这两者是...

2020-06-24 02:12:52 1041

转载 MapReduce详解(MR运行全流程，shuffle，分区，分片)

文章目录本文行文逻辑MapReduce程序详解（即map中，reduce中）map前，reduce后详解分片详解什么是分片？为何要分片？分片大小计算？分片的读取规...

2020-06-24 02:02:32 1178

转载 shuffle过程详解

shuffle过程shuffle概念shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到re...

2020-06-22 21:15:32 7193

转载 mapreduce中MAP数量

一、果断先上结论1.如果想增加map个数，则设置mapred.map.tasks 为一个较大的值。2.如果想减小map个数，则设置mapred.min.split.size 为一个较大的值。3.如果输入中有很多小文件，依然想减少map个数，则需要将小文件merger为大文件，然后使用准则2。二、原理与分析过程看了很多博客，感觉没有一个说的很清楚，所以我来整理一下。输入分片（Input Split）：在进行map...

2020-06-22 21:05:26 704

转载 MapReduce实现WordCount

MapReduce实现WordCount1、spliting ：Documents会根据切割规则被切成若干块，2、map阶段：然后进行Map过程，Map会并...

2020-06-22 20:57:20 199

转载事实表设计之累计快照事实表

事实表设计之累计快照事实表 ...

2020-06-21 12:19:12 488

转载 MapReduce排序过程详解

Hadoop、Spark等分布式数据处理框架在宣传自己的性能时大都以排序效果来做比较，各种类别的Sort Benchmark已成为行业基准测试。之所以选择排序是因为排序的核心是shuffle操作，数据的传输会横跨集群中所有主机，Shuffle基本支持了所有的分布式数据处理负载。下面就来详细分析一下使用mapreduce实现排序的基本过程...

2020-06-19 17:14:11 1119

转载如何成为职业高手（转自道法—自然老师）

如何成为职业高手 ...

2020-06-19 15:03:30 151

转载 MapReduce中各个阶段的分析（转自道法—自然老师）

MapReduce中各个阶段的分析：在MapReduce的各个阶段：在文件被读入的时候调用的是Inputformat方法读入的。inputformat——>recordreader——>read（一行）。在这里读入一行，返回的是(k,v）的形式，key是行号的偏移量，value的值是这一行的内容。在上述的...

2020-06-19 14:36:12 233

follweme888的专栏