y鱼鱼-CSDN博客

原创 Structured Streaming 入门（整合、数据分析）

针对任何流式应用处理框架（Storm、SparkStreaming、StructuredStreaming和Flink等）处理数据时，都要考虑语义，任意流式系统处理流式数据三个步骤： 1、Receiving the data：接收数据源端的数据采用接收器或其他方式从数据源接收数据（The data is received from sources using Receivers or otherwise）。

2023-03-16 00:52:30 386

原创 Structured Streaming 入门

Structured Streaming 是基于 Spark SQL 引擎构建的可扩展和容错流处理引擎. 基于Structured Streaming可以像对静态数据的批处理一样的进行流式计算操作. Spark SQL 引擎将负责以增量和连续的方式运行它，并随着流数据的不断到达而更新最终结果. 可以使用 Scala、Java、Python 或 R 中的来表示流聚合、事件时间窗口、流到批处理连接等计算在同一个优化的 Spark SQL 引擎上执行。

2023-03-16 00:48:58 350

原创 PySparkSQL（ DataFrame进阶，函数定义）

开窗函数的引入是为了既显示聚集前的数据，又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合)，它对一组值进行操作，不需要使用 GROUP BY 子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列。●聚合函数和开窗函数聚合函数是将多行变成一行，count,avg....开窗函数是将一行变成多行；聚合函数如果要显示其他的列必须将列加入到group by中开窗函数可以不使用group by，直接将所有信息显示出来。

2023-02-27 14:00:32 1161

原创 PySparkSQL 入门(概述、DataFrame操作)

SparkSQL 是Spark的一个模块, 用于处理海量结构化数据第一、针对结构化数据处理，属于Spark框架一个部分第二、抽象数据结构：DataFrameDataFrame = RDD + Schema信息；第三、分布式SQL引擎，类似Hive框架从Hive框架继承而来，Hive中提供bin/hive交互式SQL命令行及HiveServer2服务，SparkSQL都可以；Spark SQL模块架构示意图如下。

2023-02-27 13:50:36 987

原创 PySpark Core（Checkpoint、共享变量、RDD持久化）

RDD 数据可以持久化，但是持久化/缓存可以把数据放在内存中，虽然是快速的，但是也是最不可靠的；也可以把数据放在磁盘上，也不是完全可靠的！例如磁盘会损坏等。Checkpoint的产生就是为了更加可靠的数据持久化，在Checkpoint的时候一般把数据放在在HDFS上，这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全，实现了RDD的容错和高可用。

2023-02-12 13:23:30 360

原创 PySpark Core（基础，RDD创建，RDD操作）

在Spark开山之作Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing这篇paper中（以下简称 RDD Paper），Matei等人提出了RDD这种数据结构，文中开头对RDD的定义是：RDD设计的核心点为RDD提供了一个抽象的数据模型，不必担心底层数据的分布式特性。

2023-02-12 12:13:23 387

原创 Spark on YARN

将Spark任务的pyspark文件，经过Py4J转换，提交到Yarn的JVM中去运行

2023-01-27 19:40:14 214

原创 SparkBase

定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing，该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集（即 RDD）的概念。

2023-01-27 17:30:36 90

u013076651的博客