自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 spark 性能调优

Spark性能调优手段:判断内存消耗:设置RDD并行度,将RDD cache到内存,通过BlockManagerMasterActor添加RDD到memory中的日志查看每个partition占了多少内存,最后乘以partition数量,即是RDD内存占用量。1.Shuffle调优(核心)a.consolidation机制,使shuffleMapTask端写磁盘的文件数量减少,resu...

2019-08-29 20:49:03 156

原创 Spark 算子 countByKey()与reduceByKey()

1.transformation & actiontransformation :是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD或者从RDD生成一个新的RDDaction : 是得到一个值,或者一个结果(直接将RDDcache到内存中)所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会...

2019-08-27 21:01:30 331

转载 spark 算子 combineByKey详解

为什么单独讲解combineByKey?因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义,其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)def combineByKey[C]( ...

2019-08-27 20:57:28 260

原创 Kafka 数据丢失问题

Kafka如何保证数据不丢失1.生产者数据的不丢失kafka的ack机制:在kafka发送数据的时候,每次发送消息都会有一个确认反馈机制,确保消息正常的能够被收到,其中状态有0,1,-1。如果是同步模式:ack机制能够保证数据的不丢失,如果ack设置为0,风险很大,一般不建议设置为0。即使设置为1,也会随着leader宕机丢失数据。producer.type=sync req...

2019-08-27 17:42:31 2202

原创 ThreadPoolExecutor

ThreadPoolExecutor 创建线程池package com.zkl;import java.util.concurrent.ArrayBlockingQueue;import java.util.concurrent.ThreadPoolExecutor;import java.util.concurrent.TimeUnit;/** * Created by ${ZK...

2019-03-14 17:36:26 396

转载 Executor、ExecutorService、Executors三者的区别

多线程——Executor、ExecutorService、Executors三者的区别https://www.cnblogs.com/whx20100101/p/9862392.html

2019-03-14 17:33:31 1263

转载 利用Maxwell组件实时监听Mysql的binlog日志,并且把解析的json格式数据发送到kafka窗口供实时消费

https://blog.csdn.net/qq_30921461/article/details/78320750

2019-03-14 10:57:35 434 1

原创 scala 第二弹

文章目录扩展类型检查和转换scala类型树文件正则表达式trait操作符apply()/update()unapply(),是apply的逆向过程高阶函数柯里化控制抽象集合java语句脚本化。object //静态成员class //classtrait //接口def xxx(a:Int):Unit{}val //常量var //变量map(""-&gt...

2019-03-11 16:05:15 165

原创 java 四种线程池

线程池 : newCachedThreadPool,newFixedThreadPool ,newScheduledThreadPool,newSingleThreadExecutor

2019-01-07 14:36:06 130

原创 WordCount

1. def wc1(): Unit = { val conf = new SparkConf().setAppName("wc").setMaster("local[2]"); val sc = new SparkContext(conf) val wc = sc.textFile("E://java//HelloSpark//src//word.txt").f...

2019-01-07 10:59:25 143

原创 scala 第一弹

scalajava语言的脚本化。REPLREPLread + evaluate + print + loop安装scala解释程序1.scala-2.12.1.msi2.进入scala命令行 //变量 scala>var a = 100 //变量 //常量 scala>val a = 100 //常量,不能重新赋值。 //定义类型 scala...

2019-01-04 16:39:50 171

转载 面试题

文章目录PV,UV####相比select、poll系统调用,epoll有如下优点:1.支持一个进程打开的socket描述符(FD)不受限制,仅受限于操作系统的最大文件句柄数。select最大的缺陷是单个进程所打开的FD是有一定限制的,它由FD_SETSIZE设置,默认值是1024。可以选择修改这个宏后重新编译内核,但这对带来网络效率的下降。也可以选择多进程的方案(传统的Apache方案)来...

2019-01-03 15:49:01 296

翻译 markdown编辑器

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-01-03 15:41:12 125

原创 多线程

一、进程概念:正在执行的程序二、线程概念:线程是进程的控制单元,一个进程中可能会有多个线程        单线程:在同一时间段只能够执行一个任务         多线程:在同一时间段可以有多个任务同时执行三、实现线程的两种方式继承Thread 类           第一步:书写一个普通类,让此类继承Thread类        第二步:重写Thread类中的run方法,...

2019-01-03 09:43:31 138

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除