wujiulin_228-CSDN博客

原创 Spark Streaming整合Kafka

Spark Streaming获取kafka数据的两种方式: Receiver与Direct，可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列，Direct方式是直接连接到kafka的节点上获取数据了。一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。rece...

2018-09-07 17:28:48 253

原创 Spark算子：foreach和foreachPartition

RDD.foreachPartition/foreach这两个action的操作: 这两个action主要用于对每个partition中的iterator实行迭代的处理。通过用户传入的function对iterator进行内容的处理。foreach的操作由下面的源码中，foreach操作是直接调迭代rdd中每一条数据进行function操作。 /** * Applies a ...

2018-08-22 16:21:00 1340

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解 RDD、Shuff...

2018-08-22 14:38:30 524

原创基于Spark Streaming统计网站的UV

Bitmap方案所谓的Bitmap就是用一个bit位来标记某个元素对应的Value，比如ID为2的用户，就用第2个bit位来表示,然后用该位的值来表示该用户是否访问过。如果要计算UV，那就只要数一下有多少个1就可以了。该方案有一个限制就是用户的ID只能为数值型的，不能基于非数值型进行统计，如UUID。Redis提供了相关命令可以实现bitmap，如下：// 插入setbit key o...

2018-08-17 12:40:05 1278

原创 HDFS block的若干问题

小文件BLOCK占用小于block大小的小文件不会占用整个HDFS block空间，但是较多的小文件会占用更多的NAMENODE的内存（记录了文件的位置等信息）；再者，在文件处理时，可能会有较大的网络开销。一个常被问到的一个问题是：如果一个HDFS上的文件大小(file size) 小于块大小(block size) ，那么HDFS会实际占用Linux file system的多大空间？...

2018-08-15 17:03:54 2102

原创解决hive注释中文乱码

解决hive注释中文乱码，包括desc和show create table这两个命令的输出乱码问题。

2017-06-14 14:30:50 3134

原创 Scala可变长度参数和:_*使用

Scala可变长度参数和:_*使用Scala 允许你指明函数的最后一个参数可以是重复的。这可以允许客户向函数传入可变长度参数列表。想要标注一个重复参数，在参数的类型之后放一个星号。

2017-05-04 16:16:32 3034

原创 spark的缓存

spark的缓存缓存的作用，无论是在传统程序，还是分布式程序，缓存的作用主要针对频繁操作的数据，下次操作的时候直接读取。spark亦是。Spark 支持把数据集拉到集群内的内存缓存中。当要重复访问时这是非常有用的

2017-03-08 20:52:52 576

原创 spark编程模型（二）:RDD详解

RDD详解本篇文章是对Spark RDD论文的总结，中间会穿插一些Spark的内部实现总结，对应Spark版本为2.0

2017-03-03 16:19:18 961

原创 spark编程模型（一）

spark编程模型（一）Spark重要概念弹性分布式数据集（RDD）基础Spark重要概念Spark运行模式目前最为常用的Spark运行模式有： local：本地线程方式运行，主要用于开发调试Spark应用程序 Standalone：利用Spark自带的资源管理与调度器运行Spark集群，采用Master/Slave结构，为解决单点故障，可以采用ZooKeeper实现高可靠（Hi

2017-03-03 15:39:20 651

m0_37692438的博客