自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zh_wang的博客

热爱技术,欢迎交流!

  • 博客(2)
  • 收藏
  • 关注

原创 论宽依赖、窄依赖与shuffle

概念上来说     Shuffle的含义就是洗牌,将数据打散,父RDD一个分区中的数据如果给了子RDD的多个分区(只要存在这种可能),就是shuffle。Shuffle会有网络传输数据,但是有网络传输,并不意味着就是shuffle。 窄依赖:没有发生shuffle 宽依赖:存在shuffle     也许大家看了上面的说法只是有个初步的印象,下面我将以join为例进行讲解,相信大家看了这个...

2018-12-03 23:45:23 2785 3

原创 Spark遇到的两三事以及阿里云搭建spark集群的大坑

1)错误代码如下: //distinctsubject是对应学科名的rdd数组。 val distinctsubject: RDD[String] =allsubject.distinct() //这个思路是将rdd中的字符串取出来,一个个用作筛选分组。 distinctsubject.foreach(dsbj=>{ //逐个筛选出每个学科对应老师的数据(take是一个action,...

2018-12-02 00:24:04 1077

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除