JavaGod-CSDN博客

原创 Spark SQL 查询中 Coalesce 和 Repartition 暗示（Hint）

如果你使用 Spark RDD 或者 DataFrame 编写程序，我们可以通过 coalesce或 repartition 来修改程序的并行度： val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx) 或 val data = sc.newAPIHadoopFile(xxx).repartition(2).ma...

2019-01-28 10:58:24 4544

原创 Flink可查询状态Queryable State:替换你的数据库

　2015年12月雅虎使用生产环境中的真实数据对Spark Streaming、Storm以及Flink等流系统计算引擎做了一项基准测试，并得到了以下的测试结果：　　我们从上图可以清楚地看到，随着吞吐量的增大，Spark Streaming的延迟也越来越大；而Storm和Flink随着吞吐量的变化延迟波动不是很大。至于为什么这样本文就不详细介绍了。雅虎的流系统基准测试有个明显的问题，就是虽然使...

2019-01-28 10:56:12 1310

原创使用Flink读取Kafka中的消息

　和Spark一样，Flink内置提供了读/写Kafka Topic的Kafka连接器(Kafka Connectors)。Flink Kafka Consumer和Flink的Checkpint机制进行了整合，以此提供了exactly-once处理语义。为了实现这个语义，Flink不仅仅依赖于追踪Kafka的消费者group偏移量，而且将这些偏移量存储在其内部用于追踪。　　和Spark一样，...

2019-01-28 10:53:51 3681

原创 Flink Streaming中实现多路文件输出

　有时候我们需要根据记录的类别分别写到不同的文件中去，正如本博客的《Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(一)》《Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(二)》以及《Spark多文件输出(MultipleOutputFormat)》等文章提到的类似。那么如何在Flink ...

2019-01-28 10:52:31 2370

原创 Apache Flink：Table API和SQL发展现状概述

Flink Table API　　Apache Flink对SQL的支持可以追溯到一年前发布的0.9.0-milestone1版本。此版本通过引入Table API来提供类似于SQL查询的功能，此功能可以操作分布式的数据集，并且可以自由地和Flink其他API进行组合。Tables在发布之初就支持静态的以及流式数据(也就是提供了DataSet和DataStream相关APIs)。我们可以将Da...

2019-01-28 10:51:25 377

原创开源大数据处理工具汇总

查询引擎一、Phoenix贡献者：：Salesforce简介：这是一个Java中间层，可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写，代码位于GitHub上，并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。直接使用HBase API、...

2019-01-28 10:44:00 641

原创 Flink是如何与YARN进行交互的

　　YRAN客户端需要访问Hadoop的相关配置文件，从而可以连接YARN资源管理器和HDFS。它使用下面的规则来决定Hadoop配置：　　1、判断YARN_CONF_DIR,HADOOP_CONF_DIR或HADOOP_CONF_PATH等环境变量是否设置了（按照这些变量的顺序判断）。如果它们中有一个被设置了，那么就会读取其中的配置。　　2、如果上面的规则失败了（如果正确安装了 YA...

2019-01-28 10:41:04 677

原创 Apache Flink数据流容错机制

Introduce　　Apache Flink 提供了可以恢复数据流应用到一致状态的容错机制。确保在发生故障时，程序的每条记录只会作用于状态一次（exactly-once），当然也可以降级为至少一次（at-least-once）。　　容错机制通过持续创建分布式数据流的快照来实现。对于状态占用空间小的流应用，这些快照非常轻量，可以高频率创建而对性能影响很小。流计算应用的状态保存在一个可配置的...

2019-01-25 15:08:20 221

原创通过Flink将数据以压缩的格式写入HDFS

在Flink中我们可以很容易的使用内置的API来读取HDFS上的压缩文件，内置支持的压缩格式包括.deflate，.gz, .gzip，.bz2以及.xz等。但是如果我们想使用Flink内置sink API将数据以压缩的格式写入到HDFS上，好像并没有找到有API直接支持（如果不是这样的，欢迎留言纠正）。本文将介绍如何将数据以gz压缩格式将处理后的数据写入到HDFS上。主要实现代码如下：...

2019-01-25 15:07:01 5128 2

原创 Flink动态表的连续查询（Continuous Queries on Dynamic Tables）

Apache Flink 非常适用于流分析应用程序，因为它支持事件时间语义，确保只处理一次，以及同时实现了高吞吐量和低延迟。因为这些特性，Flink 能够近实时对大量的输入数据计算出一个确定和精确的结果，并且在发生故障的时候提供一次性语义。Flink 的核心流处理 API，DataStream API，非常具有表现力，并且为许多常见操作提供了原语。在其他特性中，它提供了高度可定制的窗口逻辑，不...

2019-01-25 15:04:04 713 1

原创 Spark 从 Kafka 读数并发问题

经常使用 Apache Spark 从 Kafka 读数的同学肯定会遇到这样的问题：某些 Spark 分区已经处理完数据了，另一部分分区还在处理数据，从而导致这个批次的作业总消耗时间变长；甚至导致 Spark 作业无法及时消费 Kafka 中的数据。为了简便起见，本文讨论的 Spark Direct 方式读取 Kafka 中的数据，这种情况下 Spark RDD 中分区和 Kafka 分区是一一对...

2019-01-25 15:00:21 183

原创 Apache Spark 2.4 正式发布，重要功能详细介绍

美国时间 2018年11月08日正式发布了。一如既往，为了继续实现 Spark 更快，更轻松，更智能的目标，Spark 2.4 带来了许多新功能，如下：添加一种支持屏障模式（barrier mode）的调度器，以便与基于MPI的程序更好地集成，例如，分布式深度学习框架；引入了许多内置的高阶函数，以便更容易处理复杂的数据类型（比如数组和 map）；开始支持 Scala 2.12； ...

2019-01-25 14:57:59 168

原创 Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍

Apache Spark 2.4 是在11月08日正式发布的，其带来了很多新的特性具体可以参见这里，本文主要介绍这次为复杂数据类型新引入的内置函数和高阶函数。本次 Spark 发布共引入了29个新的内置函数来处理复杂类型（例如，数组类型），包括高阶函数。在 Spark 2.4 之前，为了直接操作复杂类型，有两种典型的解决方案：将嵌套结构展开为多行，并应用某些函数，然后再次创建结构； ...

2019-01-25 14:52:51 200

原创 Apache Spark 2.4 新增内置函数和高阶函数使用介绍

针对数组类型的函数array_distinctarray_distinct(array<T>): array<T> ：从给定数组中删除重复值。使用如下： SELECT array_distinct(array(1, 2, 3, null, 3)); [1,2,3,null] array_intersectarray_in...

2019-01-25 14:51:16 599

原创 Apache Spark 2.4 内置图像数据源介绍

Apache Spark 2.3 提供了 ImageSchema.readImages API（参见 Microsoft 的这篇文章），该 API 最初是在 MMLSpark 库中开发的。在 Apache Spark 2.4 中，这个 API 更容易使用，因为它现在是一个内置的数据源。使用图像数据源，您可以从目录加载图像并获取具有单个图像列的DataFrame。本文将介绍什么是图像数据源，并介绍如...

2019-01-25 14:49:50 503

原创三种恢复 HDFS 上删除文件的方法

通过垃圾箱恢复HDFS 为我们提供了垃圾箱的功能，也就是当我们执行 hadoop fs -rmr xxx 命令之后，文件并不是马上被删除，而是会被移动到执行这个操作用户的 .Trash 目录下，等到一定的时间后才会执行真正的删除操作。看下下面的例子： $ sudo -uiteblog hadoop fs -rmr /user/iteblog/test.txt Moved: '...

2019-01-25 14:45:34 287

原创 HDFS 副本存放磁盘选择策略

在 HDFS 中，DataNode 将数据块存储到本地文件系统目录中，具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中，一般都会配置多个目录，并且把这些目录分别配置到不同的设备上，比如分别配置到不同的HDD（HDD的全称是Hard Disk Drive）和SSD（全称Solid State Drives，就是我们熟悉的...

2019-01-25 14:41:51 216

javawins的专栏