自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 问答 (1)
  • 收藏
  • 关注

原创 Spark实战案例-统计区域平均等客时间

数据描述:司机A和司机B在某市每天接送乘客的区域和时间数据格式:司机 上客区 下客区 上车时间 下车时间A 漓江区 天河区 2020-07-15 10:05:10 2020-07-15 10:25:02B 天河区 天顺区 2020-07-15 11:43:22 2020-07-15 11:55:45A 常德区 天河区 2020-07-15 11:55:55 2020-07-15 12:12:23B 天顺区 天河区 2020-07-15 12:05:05 2020-07-15 12:22:33…

2021-04-22 13:37:54 272

原创 Spark-RDD原理、WordCount运行流程

1.定义:​ RDD为弹性分布式数据集,Spark中最基本的数据抽象。表现在代码中为一个抽象类,它代表一个弹性的,不可变,可分区,里面的元素可并行计算的集合2.基本原理之YarnCluster模式​ 当执行Spark-submit脚本时,首先Client客户端会调用内部main方法开始执行任务,将封装好的指令发送给ResourceManager,ResourceManager收到指令后会选择一台NodeManager来启动AppMaster,并且启动Driver程序(Client模式Driver程序会

2021-03-12 21:13:16 346 1

原创 切片原理

1.InputFormat当数据进入到Map时,需要用到Inputformat抽象类,抽象类中有两个抽象方法public abstract class InputFormat<K, V> { // 获取切片信息 public abstract List<InputSplit> getSplits(JobContext context ) throws IOException, Inter

2021-01-29 18:08:46 318

原创 Hadoop框架--Job提交流程--本地模式

1.job.waitForCompletion(true); /** * 主要是将任务提交到集群中去并等待完成 * boolean verbose:是否将进度打印给用户看 * return 任务成功返回true */public boolean waitForCompletion(boolean verbose ) throws IOException, InterruptedException,

2021-01-29 18:07:05 1405

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除