自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Spark Streaming整合Kafka

Spark Streaming获取kafka数据的两种方式: Receiver与Direct,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。rece...

2018-09-07 17:28:48 253

原创 Spark算子:foreach和foreachPartition

RDD.foreachPartition/foreach这两个action的操作: 这两个action主要用于对每个partition中的iterator实行迭代的处理。通过用户传入的function对iterator进行内容的处理。foreach的操作由下面的源码中,foreach操作是直接调迭代rdd中每一条数据进行function操作。 /** * Applies a ...

2018-08-22 16:21:00 1340

原创 Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff...

2018-08-22 14:38:30 524

原创 基于Spark Streaming统计网站的UV

Bitmap方案所谓的Bitmap就是用一个bit位来标记某个元素对应的Value,比如ID为2的用户,就用第2个bit位来表示,然后用该位的值来表示该用户是否访问过。如果要计算UV,那就只要数一下有多少个1就可以了。该方案有一个限制就是用户的ID只能为数值型的,不能基于非数值型进行统计,如UUID。Redis提供了相关命令可以实现bitmap,如下:// 插入setbit key o...

2018-08-17 12:40:05 1278

原创 HDFS block的若干问题

小文件BLOCK占用小于block大小的小文件不会占用整个HDFS block空间,但是较多的小文件会占用更多的NAMENODE的内存(记录了文件的位置等信息);再者,在文件处理时,可能会有较大的网络开销。 一个常被问到的一个问题是: 如果一个HDFS上的文件大小(file size) 小于块大小(block size) ,那么HDFS会实际占用Linux file system的多大空间?...

2018-08-15 17:03:54 2102

原创 解决hive注释中文乱码

解决hive注释中文乱码,包括desc和show create table这两个命令的输出乱码问题。

2017-06-14 14:30:50 3134

原创 Scala可变长度参数和:_*使用

Scala可变长度参数和:_*使用Scala 允许你指明函数的最后一个参数可以是重复的。这可以允许客户向函数传入可变长度参数列表。想要标注一个重复参数,在参数的类型之后放一个星号。

2017-05-04 16:16:32 3034

原创 spark的缓存

spark的缓存缓存的作用,无论是在传统程序,还是分布式程序,缓存的作用主要针对频繁操作的数据,下次操作的时候直接读取。spark亦是。Spark 支持把数据集拉到集群内的内存缓存中。当要重复访问时这是非常有用的

2017-03-08 20:52:52 576

原创 spark编程模型(二):RDD详解

RDD详解本篇文章是对Spark RDD论文的总结,中间会穿插一些Spark的内部实现总结,对应Spark版本为2.0

2017-03-03 16:19:18 961

原创 spark编程模型(一)

spark编程模型(一)Spark重要概念弹性分布式数据集(RDD)基础Spark重要概念Spark运行模式 目前最为常用的Spark运行模式有: local:本地线程方式运行,主要用于开发调试Spark应用程序 Standalone:利用Spark自带的资源管理与调度器运行Spark集群,采用Master/Slave结构,为解决单点故障,可以采用ZooKeeper实现高可靠(Hi

2017-03-03 15:39:20 651

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除