自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 问答 (2)
  • 收藏
  • 关注

原创 Structured Streaming 入门(整合、数据分析)

针对任何流式应用处理框架(Storm、SparkStreaming、StructuredStreaming和Flink等)处理数据时,都要考虑语义,任意流式系统处理流式数据三个步骤: 1、Receiving the data:接收数据源端的数据 采用接收器或其他方式从数据源接收数据(The data is received from sources using Receivers or otherwise)。

2023-03-16 00:52:30 386

原创 Structured Streaming 入门

Structured Streaming 是基于 Spark SQL 引擎构建的可扩展和容错流处理引擎. 基于Structured Streaming可以像对静态数据的批处理一样的进行流式计算操作. Spark SQL 引擎将负责以增量和连续的方式运行它,并随着流数据的不断到达而更新最终结果. 可以使用 Scala、Java、Python 或 R 中的来表示流聚合、事件时间窗口、流到批处理连接等计算在同一个优化的 Spark SQL 引擎上执行。

2023-03-16 00:48:58 350

原创 PySparkSQL( DataFrame进阶,函数定义)

开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用 GROUP BY 子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。●聚合函数和开窗函数聚合函数是将多行变成一行,count,avg....开窗函数是将一行变成多行;聚合函数如果要显示其他的列必须将列加入到group by中开窗函数可以不使用group by,直接将所有信息显示出来。

2023-02-27 14:00:32 1161

原创 PySparkSQL 入门(概述、DataFrame操作)

SparkSQL 是Spark的一个模块, 用于处理海量结构化数据第一、针对结构化数据处理,属于Spark框架一个部分第二、抽象数据结构:DataFrameDataFrame = RDD + Schema信息;第三、分布式SQL引擎,类似Hive框架从Hive框架继承而来,Hive中提供bin/hive交互式SQL命令行及HiveServer2服务,SparkSQL都可以;Spark SQL模块架构示意图如下。

2023-02-27 13:50:36 987

原创 PySpark Core(Checkpoint、共享变量、RDD持久化)

RDD 数据可以持久化,但是持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘上,也不是完全可靠的!例如磁盘会损坏等。Checkpoint的产生就是为了更加可靠的数据持久化,在Checkpoint的时候一般把数据放在在HDFS上,这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全,实现了RDD的容错和高可用。

2023-02-12 13:23:30 360

原创 PySpark Core(基础,RDD创建,RDD操作)

在Spark开山之作Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing这篇paper中(以下简称 RDD Paper),Matei等人提出了RDD这种数据结构,文中开头对RDD的定义是:RDD设计的核心点为RDD提供了一个抽象的数据模型,不必担心底层数据的分布式特性。

2023-02-12 12:13:23 387

原创 Spark on YARN

将Spark任务的pyspark文件,经过Py4J转换,提交到Yarn的JVM中去运行

2023-01-27 19:40:14 214

原创 SparkBase

定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing,该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集(即 RDD)的概念。

2023-01-27 17:30:36 90

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除