自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

沙漏遗失了年华

念念不忘,必有回响

  • 博客(10)
  • 收藏
  • 关注

原创 如何利用spark向HDFS的目录中追加数据?

我们在利用spark处理存储在HDFS上的数据时经常会有这样的需求,需要不断的向同一个目录写入数据(比如,每个小时将kafka中的数据落到HDFS的同一个目录),当然这种需求有很多解决方案可以使用,今天我们所探讨的就是如何通过修改spark 数据输出组件来实现这个功能,1.1SparkContext 这个类中、提供了多种读取HDFS上文件的API,如下代码所示:/**...

2019-07-21 19:59:24 1860 2

原创 面试题中常考的行转列和列转行(hive sql 和mysql sql实现)

面试中,我们经常遇见行转列和列转行的题目,针对于这类题目我们做一些总结:题目1:柠檬班第30期学生要毕业了,他们的Linux、MySQL、Java成绩数据表 tb_lemon_grade_column中, 表中字段student_name,Linux,MySQL,Java分别表示学生姓名、Linux成绩、MySQL成绩、Java成绩, 数据图1所示。请写出一条SQL,将图1的数据变成图2的形式...

2020-04-03 17:04:39 873

原创 如何计算留存率(Hive Sql or Spark sql)

在互联网行业中,用户在某段时间内开始使用应用,经过一段时间后,仍然继续使用该应用的用户,被认作是留存用户,这部分用户占当时新增用户的比例即是留存率,会按照每隔1单位时间(例日、周、月)来进行统计。顾名思义,留存指的就是“有多少用户留下来了”。留存用户和留存率体现了应用的质量和保留用户的能力,那么我们怎么样计算留存率呢?看下面这个例子: 如上示例所示,我们如何通过Hive Sql 或者 ...

2020-03-17 20:21:38 2508

原创 实时数据仓库

本文我们来探讨下实时数据仓库,从以下几个方面出发: 什么是实时数据仓库 实时数据仓库的产生背景 实时数据仓库的发展现状 实时数据仓库的数据特点是什么 实时数据仓库的架构 实时数据仓库的分层架构设计 实时数据仓库的数据建模方法 实时数据仓库的技术选型以及对比 实时数据仓库的前景1. 什么是实时数据仓库 互...

2020-03-17 13:42:26 2206

原创 浅谈企业数据仓库

数据仓库

2020-03-15 15:58:32 492

原创 spark sql 原理以及解析

前三节,我们从spark底层的RDD角度去剖析了整个Spark 程序的执行逻辑,以及一些原理性的东西,当然我们在使用的时候要是直接使用Spark Core的编程语法也可以,在此基础上Spark 还提供了基于SQL的编程语法,也就是Spark-Sql,本文章从以下几个方面去分析Spark-SqlSpark Sql 简介 Spark Sql 执行原理 Catalyst整体执行流程介绍...

2020-03-10 18:03:07 1117

原创 大数据spark初识 3

接着(大数据spark初识 2)我们接着来剖析spark,本篇文章我们从以下几个方面来剖析sparkSpark shuffle 原理以及过程剖析 Sparkshuffle 和 MRshuffle 有什么不同 Spark 排序原理以及过程剖析 Spark 内存管理模型 Spark 核心组件,广播变量和累加器1.Spark shuffle 原理以及过程剖析 1....

2020-03-09 10:12:27 283

原创 大数据spark初识 2

什么是Spark? Spark架构?以及spark 的组成 什么是Driver? 什么是Executor?以及他们之间的关系是如何的? 什么是RDD?以及RDD的作用? Spark 部署模式?以及优缺点 Spark 任务的提交流程(基于yarn) 什么是宽依赖?什么是窄依赖? Spark stage是如何划分的?spark stage 是如何调度的? Spark task是如何划...

2020-03-05 00:35:30 133

原创 扑克牌的顺序问题

1. 问题描述: 我手中有一堆扑克牌, 但是观众不知道它的顺序。 第一步, 我从牌顶拿出一张牌, 放到桌子上。 第二步, 我从牌顶再拿一张牌, 放在手上牌的底部。 第三步, 重复前两步的操作, 直到我手中所有的牌都放到了桌子上。最后, 观众可以看到桌子上牌的顺序是:13,12,11,10,...

2019-11-18 00:19:43 5081

原创 大数据spark初识

1.什么是spark? Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作,否则我们每次操作就需要等待数分钟甚至数小时。Spark 的一个主要特点就是能...

2019-07-28 11:44:47 151

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除