Monstar_L-CSDN博客

原创 Hive指标统计篇

大数据指标计算，通过Hive实现

2022-06-15 13:50:59 1089 1

目录一、压缩格式Hive 数据压缩的优缺点Hive 压缩格式对应的Hadoop编码/解码器方式Hive 常见的压缩格式对应的压缩性能比较扩展下：怎样对压缩模式进行评价？二、存储格式Hive 中的 TEXTFILE 文件存储格式Hive 中的 SequenceFile 文件存储格式Hive 中的 RCFILE 文件存储格式Hive 中的常用文件存储格式 ORCFILEHive 中的常用文件存储格式 Parquet什么是行式存储和列式存储对于 Hive表文件存

2022-04-11 15:44:47 1724

原创 Flink实时数仓落地方案

实时数仓架构图：说明：数据采集层：原始数据目前分三种，由中台生成的埋点日志用于主流，RDBMS则是获取业务库表，通常用于维表关系所需，binlog日志通过cdc方式进入kafka进行消费，用于大维表的增量更新。数据计算层：数据计算层的计算引擎是Flink，通过较上层的FlinkSQL实现数据的ETL加工，其中HDFS作用于大维表初始化到Hbase过程所用，再通过Flinksql消费binlog日志进行增量更新。数据共享层：通过Flinksql对主流表进行打宽后输出到dw层kafka为最终

2022-03-23 23:18:21 2687 1

原创大数据开发面试题记录

针对碰到的一些问题进行汇总剖析

2022-03-16 18:21:20 221

原创 ProcessWindowFunction算子单独使用性能较差，如何结合ReduceFunction和AggregateFunction算子结合使用

ProcessWindowFunction结合ReduceFunction、AggregateFunction使用的优化小技巧

2022-01-12 16:38:25 481

原创数据仓库之极限存储实施

数据仓库之极限存储实施一、前言本文参考大数据之路--阿里巴巴大数据实践内容，针对数据仓库中拉链表的存储进行了设计与实践。在本公司实际处理拉链表过程中，采用的是每天分区全量存储历史所有数据，这样极大地增加的存储的成本和数据查询效率。针对此种情况，通过极限存储的方式进行优化，此种方式会增加两个时间戳字段（分区字段：开始时间分区：start_date和结束时间分区：end_date），将所有以天为粒度的变更数据都记录下来。二、原累计表处理方式2.1 原数仓表结构：CREATE TABLE I

2020-08-01 19:21:06 1139

原创数仓Hive基础调优

引言此篇文章主要针对hive在执行hql时候，所面临的执行效率慢、数据倾斜、jobs任务过多情况进行分析调优；由于本人也是初次了解hive调优方面知识，在网上也查阅了很多资料，写下此篇文章也是为了巩固自己的知识点及能够与各位同学相互交流学习。以下本人会针对配置参数、HQL语句两个方面进行相关调优说明，另外在优化过程中，需要结合业务逻辑去优化会达到事半功倍的效果，后续会陆续更新此方面知识。...

2019-06-13 14:23:09 662

原创 Hive函数篇

引言Hive是基于hadoop的数据仓库工具，能够将一张结构化的数据文件映射为一张数据库表。以便于在Hive中通过类似于传统sql（Hive中我们叫hql）做数据分析等工作。Hive默认计算模型是MapperReduce，将hql转换成MR任务进行计算；在Hive中还有Hive on Spark的模式，这里仅做了解。本文主要是在工作中使用Hive的时候，对一些用到的函数进行记录，以便后续查阅...

2019-06-10 23:17:52 1330

原创五、Linux安装rpm文件时报错

一、下载rpm文件在配置Hue中需要安装大量rpm文件，其中包括：我们可以直接在linux的镜像文件中解压Package文件夹中rpm数据，并筛选出当中需要的rpm文件二、上传文件到远程服务器中将rpm文件通过xftp的方式上传到远程服务器中三、执行安装命令 1、通过yum install *报错 Resolving Dependencies--...

2018-07-04 18:38:26 6907

原创四、Hadoop全分布模式配置流程

一、安装linux环境 1、linux环境在这里就不进行描述了，我这里安装的是[《红帽企业linux.6.2》(red.hat.enterprise.linux.6.2)6.2[光盘镜像]].rhel-server-6.2-i386-dvd.iso,这是32位的操作系统(getconf LONG_BIT命令)。 1.1在配置网络适配器时候需注意选择仅主机模式，否则会在后续连接不成...

2018-07-04 16:33:07 507

原创三、MapReduce理解

一、第一个MapReduce应用程序二、Hadoop的序列化三、实现MapReduce排序四、实现MapReduce分区五、MapReduce的Combiner六、MapReduce的Shuffle

2018-07-04 13:34:57 344

原创一、初识Hadoop文件上传下载过程

一、Hadoop各节点的作用参考https://blog.csdn.net/gamer_gyt/article/details/51758881 1.Namenode 参考：https://blog.csdn.net/lb812913059/article/details/78713634 负责文件元数据的管理操作以及处理客户端请求。 2.Dat...

2018-07-02 12:36:39 1485

原创二、Hadoop环境安装及SSH设置免密码登录

一、Hadoop本地模式安装安装hadoop本地模式只为了测试mapredure功能，不具备hdfs功能步骤： 1.上传hadoop安装包hadoop-2.6.0.tar.gz到linux系统中 2.通过tar -zxvf hadoop-2.6.0.tar.gz -C ~/training命令将安装包解压到指定目录 3.通过vi ~/.bash...

2018-07-02 12:36:30 596

Monstar_L的博客