自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (8)
  • 收藏
  • 关注

原创 本地提交spark任务至yarn

关于本地提交spark任务至yarn,之前一直采用的是本地安装hadoop、spark等环境后通过相关API 提交任务。 此种方法的不足:本地需要安装hadoop、spark环境,对于新手来说非常痛苦,非常容易出现各种问题,如本地配置文件版本过多导致任务受影响等。 每个人提交任务的user都是自己电脑的user,容易出现各种问题,如hdfs、hive相关的权限问题 相关的api提交...

2019-07-17 15:45:23 1459

原创 sparkstreaming消费kafka如何保证输出结果只会产生一次?(事务性)

最近开始使用sparkstreaming+kafka0.10,使用过程中碰到问题:    steaming采用的direct方式 ,(这种方式和receiver方式的对比性能会好很多),spark计算完数据之后有一个结果入库操作,现在问题来了,采用自动提交的时候程序二次启动经常会出现重复消费的情况,并且怎么保证这个结果只生产一次呢?首先介绍一下sparkstreaming内部是怎么做到消息只计算一...

2018-07-05 17:54:01 4463 4

原创 使用sparksubmit提交application时始终找不到三方jar 提升class not found

spark2.1.0 hadoop 2.6.0(ambari)spark中使用了三方jar并且运行模式为yarn时,执行如下命令:./spark-submit --master yarn --deploy-mode cluster --driver-memory 1g --executor-memory 3g --executor-cores 1 --class com.test.Test /tm...

2018-06-26 12:50:45 4234 3

原创 kafka0.10版本spark只能读到一个分区的数据,错误Beginning offset xxx is the same as ending offset

sparkstreaming 2.1.0 kafka 0.10.1.1  topic三个partition相关配置代码:val kafkaParam = Map[String,Object]( "key.deserializer"->classOf[StringDeserializer] ,"value.deserializer"->classOf[StringDeserial...

2018-06-26 12:39:57 1986 1

原创 关于Spark处理double类型数据时的一个小优化

在探索spark优化的过程中,百度出来的千篇一律无非都是一些配置的修改,其实代码的优化是一个非常关键,甚至可以起决定性作用的步骤。 最近根据自己的项目内容完成了一个基于spark的分块矩阵求逆,需要求一个20000*20000矩阵的逆。单机的工具如jama 求出来得按小时计。由于公司集群硬件条件有限,在处理时一直存在着内存溢出和计算耗时过长的问题。。。。在不停的优化的过程偶尔在网上看到了java中

2018-01-18 16:36:35 2340

原创 2020-11-25

手上有很多java数据结构相关的基础代码需求,寻找一枚英语水平还行,能力还行的java程序员,有兴趣的跟我聊聊吧

2020-11-25 22:45:34 124

原创 sparkstreaming读取文件读取不到数据

今天用了下sparkstreaming读取hdfs文件或本地目录文件,发现文件内容一直不会被处理,使用了下面两种方法都不行,阅读源码并开启DEBUG后发现,textFileStream后面也是调用fileStream方法,并且newFilesOnly传入的为true,这个值为true时,spark只会处理文件创建时间大于spark启动时间的文件。。这个比较坑,老文件无论如何都不会被处理。刚开始的时候这个值传入true并且也使用新文件,也是一样没有处理,开了DEBUG后才发现有一个guava的错误,由于版

2020-09-28 18:03:52 963

原创 spark2查看并修改源码

如果你只是想单纯的修改部分类的源码,并不需要网上教程的mvn build等操作。。。。本文基于spark2.1.0,spark2以后, 没有spark-assembly.jar了,东西拆分成了不同的模块,spark-core.jar spark-yarn.jar等等...1. 查看源码http://spark.apache.org/downloads.html下好你使...

2019-07-17 15:55:18 162

原创 spark dataset groupby 之后是否自动缓存

spark2.1.0中使用spark dataset做一些操作//data中c根据ol1 字段做分组 val data = sparkSession.csv(true,",","file:///Users/zhujiye/Downloads/work2.csv") //groupbyData 类型为 RelationalGroupedDataset val groupbyData = da...

2018-12-20 00:08:39 316

Sparkjobsubmit.zip

本地提交spark任务至yarn,本地无须安装hadoop环境,适合批量新手入门。

2019-07-17

spark编译源码过程

如果你只是想单纯的修改部分类的源码,并不需要网上教程的mvn  build等操作。通过我这个教程即可

2019-01-01

windows中使用yarn-cluster模式提交spark任务

windows中使用yarn-cluster模式提交spark任务,百度找不着的啦,看我这里。另外spark的版本要使用正确哦 更简单的方式参考: https://blog.csdn.net/u013314600/article/details/96313579

2015-12-11

servlet3.0.1

java web servlet类jar包

2015-10-29

oracle驱动ojdbc14

java连接oracle驱动,ojdbc14最稳定版本

2015-10-29

jquery1.8.3

jquery1.8.3 小巧好用.......

2015-10-29

spark访问hbase

spark本地模式访问hbase表进行map reduce操作

2015-10-19

双节点hadoop安装文档

双节点hadoop安装文档。非常简单,一看就会

2015-08-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除