xiaopihaierletian-CSDN博客

Scala一般使用两种类型的数据，val(常量)和var(变量)，并且Scala提倡使用常量而不是变量；所以当定义一个对象或变量时，我们所定义的这个对象是不变的；即我们所使用的Array，List都是不可变对象。Scala同时支持可变集合、不可变集合，两个主要的包：不可变集合：scala.collection.immutable可变集合：scala.collection.mutableScala优先采用不可变集合，对于几乎所有的集合类，Scala都同时提供了可变、不可变的版本。数组 Ar

2021-07-12 22:51:14 189 1

原创 Spark常用特殊符号详解

=>（匿名函数）在Spark中函数也是一个对象可以赋值给一个变量。Spark的匿名函数定义格式：(形参列表) => {函数体}所以，=>的作用就是创建一个匿名函数实例。比如：(x:Int) => x +1 ，就等同于下面的Java方法：public int function(int x) { return x+1;}示例：class Symbol { var add = (x: Int) => x + 1}object t...

2021-07-12 22:23:50 2821 2

原创 Scala基础语法

Scala 与 Java 的最大区别是：Scala 语句末尾的分号 ; 是可选的。我们可以认为 Scala 程序是对象的集合，通过调用彼此的方法来实现消息传递。接下来我们来理解下，类，对象，方法，实例变量的概念：对象 -对象有属性和行为。例如：一只狗的状属性有：颜色，名字，行为有：叫、跑、吃等。对象是一个类的实例。类 -类是对象的抽象，而对象是类的具体实例。方法 -方法描述的基本的行为，一个类可以包含多个方法。字段 -每个对象都有它唯一的实例变量集合，...

2021-07-12 08:44:02 111

转载 Spark编程指南

备注：根据官网http://spark.apache.org/docs/latest/rdd-programming-guide.html进行对比更新Spark编程指南(写在前面，本文是翻译自2015年7月29日的http://spark.apache.org/docs/latest/programming-guide.html，由于水平所限，肯定存在很多翻译不到位地方。本文的翻译是为了加深自己作为初学者对Spark的理解，欢迎大家指出各种理解上的错误。)一，概述每个Spark应用都有一个.

2021-07-04 17:37:55 404

原创 HIVE-null值不计数量，空字符串计数量

SELECTcount(id) as id,count(distinct id) as ids_id,count(id1) as id1,count(distinct id1) as ids_id1 ,count(name) as name1,count(distinct name) as ids_name1from(SELECT '2' as idunion allSELECT '3' as idunion allSELECT '1' as id)p1left join(.

2021-07-04 17:25:14 153 1

原创 Spark-submit参数优化配置

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个

2021-07-04 17:22:01 807

原创 Spark-saveAsTextFile 分区设置

scala> val rd1 =sc.parallelize(Array(1 to 10000))rd1: org.apache.spark.rdd.RDD[scala.collection.immutable.Range.Inclusive] = ParallelCollectionRDD[24] at parallelize at <console>:24scala> rd1.partitions.sizeres32: Int = 24scala> rd1.s

2021-07-04 17:06:34 754

原创 spark中saveAsTextFile如何最终生成一个文件

　　一般而言，saveAsTextFile会按照执行task的多少生成多少个文件，比如part-00000一直到part-0000n，n自然就是task的个数，亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件，而不是成百上千个文件了？答案自然是有办法。　　在RDD上调用coalesce(1,true).saveAsTextFile()，意味着做完计算之后将数据汇集到一个分区，然后再执行保存的动作，显然，一个分区，Spark自然只起一个task来执行保存的动作，也就只有一个文件产生了。又或

2021-07-03 18:28:56 742 1

Distributed Computing.pdf

YaleB人脸数据库

connection。jar

空空如也