自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 问答 (1)
  • 收藏
  • 关注

原创 Frequency Estimation

文章目录前言算法流程精度实现及改进实现改进前言大数据统计中的频率估计问题,即求一个元素出现的次数。和Cardinality Estimation场景相似,面临着内存开销大的问题,不适合直接存储原始数据。本篇文章介绍解决这个问题的一个算法,Count-Min Sketch 。算法Count-Min Sketch 算法是在论文An Improved Data Stream Summary:T...

2019-01-30 20:33:39 646

原创 LogLog和HyperLogLog

文章目录前言算法过程及实现LogLog&HyperLogLogHyperLogLog过程模拟器应用前言前一篇文章Cardinality Estimation介绍了计算UV的几种方法,HashSet、Bitmap、LPC和PC,这一篇接着介绍LogLog、HyperLogLog算法。算法过程及实现LogLog和HyperLogLog算法将一个输入数字由二进制表示,这个二进制数视为一次...

2019-01-22 20:03:29 1080

原创 Cardinality Estimation

文章目录前言UV统计的难点时空复杂度UV合并相关算法HashSetBitmapLinearPCSALogLogHyperLogLog其他前言最近做UV近似统计的需求,整理了UV统计相关的算法,Cardinality Estimation的相关研究可以用于UV近似统计。下面所列出算法重在实现逻辑,相关证明过程可以参考对应论文。我们的UV统计采用了HyperLogLog算法,因此会对HyperLo...

2019-01-07 00:07:03 587

原创 Druid

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2018-12-20 11:20:35 405

原创 Spark Storage之ExternalBlockStore

介绍Spark的ExternalBlockStore相关部分

2017-09-12 16:55:35 840

原创 Spark Storage之DiskStore

介绍Spark对于磁盘文件的管理及读写

2017-09-12 11:24:10 1314

原创 Spark Storage之MemoryStore

介绍MemoryStore的实现及几个重要方法

2017-08-20 23:44:24 4069

原创 Spark Storage概述

介绍Storage模块的设计思路及BlockManager的概要

2017-08-04 21:31:36 2461

原创 Spark Broadcast之TorrentBroadcast

介绍TorrentBroadcast的实现思路

2017-07-23 23:28:12 1436

原创 Spark Broadcast概述

介绍BROADCAST的使用场景,及几种实现思路。

2017-07-17 00:18:06 6352

原创 Spark调优之Tuning Spark(Part 2)

翻译Spark官方调优指南Tuning Spark

2017-07-05 22:03:44 1688

原创 Spark调优之Tuning Spark(Part 1)

翻译Spark官方调优指南Tuning Spark

2017-06-30 17:24:08 3184

翻译 Spark调优之Cloudera博客(Part 2)

Cloudera关于Spark调优方面的第二篇博客

2017-06-22 23:58:24 5700

原创 Cousera学习

参考: Cousera学习

2017-06-19 12:17:06 759

翻译 Spark调优之Cloudera博客(Part 1)

翻译Cloudera调优方面的博客

2017-06-12 00:14:00 2095

原创 Spark Shuffle之SortShuffleWriter

介绍SortShuffleWriter的实现

2017-06-05 00:06:06 7634

原创 Spark Shuffle之Tungsten-Sort

介绍tungsten-sort

2017-05-31 18:27:25 5728

原创 Spark Shuffle之Sort Shuffle

介绍Spark Sort Shuffle

2017-05-27 23:13:00 17399

原创 Spark Shuffle之Hash Shuffle

介绍Spark Hash Shuffle

2017-05-21 23:53:41 10773 1

原创 Spark Shuffle概述

介绍Spark Shuffle的概念及三种实现,hash shuffle、sort shuffle、tungsten-sort shuffle。

2017-05-19 14:28:05 6341 1

原创 Spark 内存管理之BytesToBytesMap

介绍BytesToBytesMap

2017-05-15 23:26:13 6517

原创 Spark 内存管理之Tungsten

介绍Tungsten中内存管理相关部分

2017-05-11 23:49:32 15422

原创 Spark 内存管理之UnifiedMemoryManager

介绍统一内存管理器UnifiedMemoryManager

2017-05-07 23:53:37 4851

原创 Spark 内存管理之StaticMemoryManager

分析静态资源管理器StaticMemoryManager

2017-05-03 21:28:35 17419 2

原创 Spark 内存管理概述

介绍Spark内存管理中涉及到的相关概念

2017-04-30 21:52:44 16225

原创 Spark DAG之SubmitTask

介绍Stage转为Task,提交给Executor运行的过程

2017-04-26 10:33:21 3377

原创 Spark DAG之SubmitStage

介绍提交Stage的流程

2017-04-24 23:55:46 9355

原创 Spark DAG之划分Stage

介绍Stage的定义及DAGScheduler如何划分Stage

2017-04-22 13:55:56 19750

原创 Spark DAG之SubmitJob

介绍DAGScheduler使用EventLoop异步处理Job的流程

2017-04-20 17:44:08 5740 2

原创 Spark DAG概述

介绍DAGScheduler的作用,以及Stage、Task等概念,并举了一个具体例子

2017-04-18 17:02:03 20396 4

原创 Spark 任务调度之Executor执行task并返回结果

介绍Executor执行task并返回result给Driver。

2017-04-14 11:44:58 29896

原创 Spark 任务调度之Driver send Task

介绍Driver发送task到Executor的过程。

2017-04-12 15:19:57 10962 1

原创 Spark 任务调度之创建Executor

CoarseGrainedExecutorBackend创建Executor对象的过程

2017-04-10 14:25:06 3792

原创 Spark 任务调度之启动CoarseGrainedExecutorBackend

介绍CoarseGrainedExecutorBackend的作用及启动流程。

2017-04-09 00:53:54 19564

原创 Spark 任务调度之Launch Executor

Master launchExecutor流程

2017-04-06 23:51:49 8207 1

原创 Spark 任务调度之Register App

概要本篇博客是Spark 任务调度概述详细流程中的第三部分,介绍Driver向Master注册APP信息的流程

2017-04-04 23:46:29 3957

原创 Spark 任务调度之Launch Driver

概要本篇博客是Spark 任务调度概述详细流程中的第二部分,第一部分Spark 任务调度之Submit Driver中介绍了从命令行提交任务开始,至Master中注册Driver的流程。接下来Master将注册的Driver信息发送到Worker,在Worker节点启动Driver。Master发送LaunchDriver消息 Spark 任务调度之Submit Driver中最后我们讲到将dri

2017-04-02 23:35:31 6919 1

原创 Spark 任务调度之Submit Driver

介绍在Standalone模式下,从命令行使用spark-submit提交任务开始,到将Driver提交到Master的过程。

2017-04-01 15:50:38 8200 1

原创 Spark 任务调度概述

概要主要介绍Standalone部署模式下,从命令行执行spark-submit命令提交任务开始,到最后计算结果返回driver的完整过程,主要涉及到spark-core中deploy、executor和scheduler部分,但DAGScheduler相关的部分涉及到内容较多,这里不作介绍,留作后面详细分析。Spark Doc中的介绍Spark官方文档中,Cluster Mode Overvie

2017-03-31 00:04:27 16505 7

原创 Spark RPC之RpcEndpointVerifier

RpcEndpointVerifier的作用是,当RpcEndpointRef访问对应的RpcEndpoint前,判断RpcEndpoint是否存在

2017-03-26 21:52:52 3701 2

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除