自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 idea maven 任何不明错误,考虑idea的jdk版本配置

org.apache.maven.plugins:maven-compiler-plugin:3.6.2:compile (default-compile) on project dc-common:idea坑爹的地方,一个jdk版本,要设置n多个地方,真是烦透了,不知道是哪个弱智搞的,如果idea maven莫名出现编译失败,致命错误,或是文件被占用,或是@Data的属性无法set值,那么要考虑是不是idea的jdk版本问题,这次有知道shit idea还有一个关于jdk版本的设置,setti

2021-11-29 18:22:28 185

原创 bigdata

一般来说hadoop hdfs有12个盘,每个盘2~3Tyarn resourcemanager nodemanager 如果集群比较小 20个以下,resourcemanager可以放到某个datanode机器上hdfs namenode datanodenodemanager(占用cpu资源)和datanode(占用硬盘资源)同时部署一台机器,充分利用资源,另外有可能方便数据计算从本地取oracle几千万数据放到hdfs,存成orc或parquet,使用presto或...

2021-11-29 18:18:39 179

原创 hdfs配置

一般来说hadoop hdfs有12个盘,每个盘2~3Tyarn resourcemanager nodemanager 如果集群比较小 20个以下,resourcemanager可以放到某个datanode机器上hdfs namenode datanodenodemanager(占用cpu资源)和datanode(占用硬盘资源)同时部署一台机器,充分利用资源,另外

2021-11-29 18:17:14 152

原创 sortBy是一个action

val conf = new SparkConf().setAppName("ScalaWordCount").setMaster("local[4]") //创建spark执行的入口 val sc = new SparkContext(conf) //指定以后从哪里读取数据创建RDD(弹性分布式数据集) val lines: RDD[String] = sc.textFile("/D:/a.txt") //切分压平 val words: RDD[S...

2020-05-20 13:56:37 219

原创 spark join 何时不shuffle

val a = sc.parallelize(Array(("A",1),("B",1),("B",1),("C",1),("C",1),("D",1),("E",1)),3) val b = sc.parallelize(Array(("A",1),("B",1),("C",1),("E",1),("F",1)),3) val a1 = a.reduceByKey(_+_,2) val b1 = b.reduceByKey(_+_,3) val joinRdd ...

2020-05-13 17:40:16 421

原创 spark多阶段任务

import org.apache.spark.rdd.RDD val lines: RDD[String] = sc.parallelize(List("A B C","A B D"),3) //切分压平 val words: RDD[String] = lines.flatMap(_.split(" ")) //将单词和1组合 val wordAndOne: RDD[(String, Int)] = words.map((_, 1)) val...

2020-05-13 11:45:21 162

原创 spark程序运行,到底会有多少task产生?

//创建spark配置,设置应用程序名字 val conf = new SparkConf().setAppName("mytest").setMaster("local[2]") //创建spark执行的入口 val sc = new SparkContext(conf) val rdd = sc.parallelize(1 to 4,3) val rdd1 = rdd.map(x => { println(x + "--rdd1-----...

2020-05-12 19:01:22 677 1

原创 spark基础认识

1,通过scala 集合方式parallelize生成rdd,如, val rdd = sc.parallelize(1 to 10) 等价sc.parallelize(List(1,2,3,4,5,6))这种方式下,如果在parallelize操作时没有指定分区数,则rdd的分区数 = sc.defaultParallelism可以手动指定c.parallelize(List(1,2,3,4,5,6),4) 指定4个分片,如果list里的元素不够4个,那么会有一些分片是空的..

2020-05-11 09:57:30 265

原创 关于ScheduledExecutorService

最好是一个定时任务就一个线程,否则多个定时任务用一个线程,会导致延迟的情况 线程数用一个线程 ScheduledExecutorService service = ExecutorBuilder.newScheduledThreadPool(1, "test");任务睡5秒class MyTask implements Runnable{ int no ; public MyTa

2017-02-23 15:01:17 226

原创 java类在idea上的撞见的奇葩问题

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-02-07 14:58:16 264

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除