siyueabc-CSDN博客

原创 idea maven 任何不明错误，考虑idea的jdk版本配置

org.apache.maven.plugins:maven-compiler-plugin:3.6.2:compile (default-compile) on project dc-common:idea坑爹的地方，一个jdk版本，要设置n多个地方，真是烦透了，不知道是哪个弱智搞的，如果idea maven莫名出现编译失败，致命错误，或是文件被占用，或是@Data的属性无法set值，那么要考虑是不是idea的jdk版本问题，这次有知道shit idea还有一个关于jdk版本的设置，setti

2021-11-29 18:22:28 185

原创 bigdata

一般来说hadoop hdfs有12个盘，每个盘2~3Tyarn resourcemanager nodemanager 如果集群比较小 20个以下，resourcemanager可以放到某个datanode机器上hdfs namenode datanodenodemanager（占用cpu资源）和datanode（占用硬盘资源）同时部署一台机器，充分利用资源，另外有可能方便数据计算从本地取oracle几千万数据放到hdfs，存成orc或parquet，使用presto或...

2021-11-29 18:18:39 179

原创 hdfs配置

一般来说hadoop hdfs有12个盘，每个盘2~3Tyarn resourcemanager nodemanager 如果集群比较小 20个以下，resourcemanager可以放到某个datanode机器上hdfs namenode datanodenodemanager（占用cpu资源）和datanode（占用硬盘资源）同时部署一台机器，充分利用资源，另外

2021-11-29 18:17:14 152

原创 sortBy是一个action

val conf = new SparkConf().setAppName("ScalaWordCount").setMaster("local[4]") //创建spark执行的入口 val sc = new SparkContext(conf) //指定以后从哪里读取数据创建RDD（弹性分布式数据集） val lines: RDD[String] = sc.textFile("/D:/a.txt") //切分压平 val words: RDD[S...

2020-05-20 13:56:37 219

原创 spark join 何时不shuffle

val a = sc.parallelize(Array(("A",1),("B",1),("B",1),("C",1),("C",1),("D",1),("E",1)),3) val b = sc.parallelize(Array(("A",1),("B",1),("C",1),("E",1),("F",1)),3) val a1 = a.reduceByKey(_+_,2) val b1 = b.reduceByKey(_+_,3) val joinRdd ...

2020-05-13 17:40:16 421

原创 spark多阶段任务

import org.apache.spark.rdd.RDD val lines: RDD[String] = sc.parallelize(List("A B C","A B D"),3) //切分压平 val words: RDD[String] = lines.flatMap(_.split(" ")) //将单词和1组合 val wordAndOne: RDD[(String, Int)] = words.map((_, 1)) val...

2020-05-13 11:45:21 162

原创 spark程序运行，到底会有多少task产生？

//创建spark配置，设置应用程序名字 val conf = new SparkConf().setAppName("mytest").setMaster("local[2]") //创建spark执行的入口 val sc = new SparkContext(conf) val rdd = sc.parallelize(1 to 4,3) val rdd1 = rdd.map(x => { println(x + "--rdd1-----...

2020-05-12 19:01:22 677 1

原创 spark基础认识

1，通过scala 集合方式parallelize生成rdd，如， val rdd = sc.parallelize(1 to 10) 等价sc.parallelize(List(1,2,3,4,5,6))这种方式下，如果在parallelize操作时没有指定分区数，则rdd的分区数 = sc.defaultParallelism可以手动指定c.parallelize(List(1,2,3,4,5,6),4) 指定4个分片，如果list里的元素不够4个，那么会有一些分片是空的..

2020-05-11 09:57:30 265

原创关于ScheduledExecutorService

最好是一个定时任务就一个线程，否则多个定时任务用一个线程，会导致延迟的情况线程数用一个线程 ScheduledExecutorService service = ExecutorBuilder.newScheduledThreadPool(1, "test");任务睡5秒class MyTask implements Runnable{ int no ; public MyTa

2017-02-23 15:01:17 226

原创 java类在idea上的撞见的奇葩问题

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-02-07 14:58:16 264

siyueabc的博客