自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Spark算子

1.手敲WCreduceByKeysc.textFile(“data/wccount.txt”).flatMap(.split(" ")).map(x=>{(x,1)}).reduceByKey(+_).foreach(println)sc.stop()groupBykeysc.textFile(“data/wccount.txt”).flatMap(.split(" ")).map(x=>{(x,1)}).groupByKey().mapValues(.sum

2022-04-19 14:08:24 102

原创 dataworks

1 数据集成数据同步,抽数,导数离线数仓,离线同步1.数据源从哪里来,到哪里去可以是数据库,也可以是别的,比如FTP,ES等2.表来源表 目标表3.字段映射关系4.同步方式/同步逻辑比如从mysql到hive先清空hive表的某些分区,再插入,全删全插直接插入hive到mysql呢?全删全插直接插入主键冲突updatehive到mysql,我们公司称为“回流”同步方法1.直接对mysql业务库进行操作优缺点:操作简单,风险较大2.写到kafka,让java后端去消费

2022-04-10 19:15:10 1576

原创 Hive4

1.四大byorder by(全局排序)只有一个reduce。这里无论设置多少个reduce数,都是一个优点:全局排序缺点:当数据量大的时候,耗时长,效率低,适用于较小数据量的场景(十万、百万)sort by(分区内排序)对每一个reduce内部的数据进行排序,全局结果来说不是排序的也就是说只能保证每一个reduce输出的文件中的数据是按照规定字段排序的适用于数据量大,但是对排序要求不严格的场景,可以大幅提高执行效率(抽样)需要预先设置reduce个数,reduce结果文件内部有序,全局是

2022-04-09 16:51:07 1169

原创 hive3

作业:1.自己建立多级分区,并观察hdfs上的目录以分区顺序建立文件目录2.lateral view的用法平铺数据,解析数组select case when phone is not null then phone else '000000' end as phonefrom jsonLATERAL VIEW json_tuple(line,'phone') t as phone3.json_tuple和get_json_object的区别,尤其是性能方面select json_tupl

2022-04-05 16:36:13 1632

原创 Hive2

Store as的含义hive文件存储格式包括以下几类1.TEXTFILE为默认格式,建表时不指定则默认为这个格式,导入数据时会直接吧数据文件拷贝到hdfs上不进行处理;SEQUENCEFILE,RCFILE,ORCFILE,PARQUET格式的表不能直接从本地文件导入数据数据要先导入到TEXTFILE格式的表中,再从表中用insert导入SEQUENCEFILE,RCFILE,ORCFILE,PARQUET表中;或者用复制表结构及数据的方式(create table as select * fr

2022-04-04 19:46:35 225

原创 dbeaver连接hive

1.进入app/hadoop/etc/hadoop/目录下配置core-site.xml,添加配置文件如下<property> <name>hadoop.proxyuser.sqq.hosts</name> <value>*</value></property><property> <name>hadoop.proxyuser.sqq.groups</name>

2022-04-04 18:26:06 917

原创 hadoop_mapreduce1

split 分片blocksize 128M比如300MB的文件,blocksize默认为128M分成3块如果是128.01MB,128有buffer,10%,其实是一个块3.mapword=>(word,1) kv键值对4.shuffle(耗内存)洗牌默认按照key的hash值进行分发相同的key肯定要分发到同一个reduce任务上去做汇总操作5.reduce汇总,对value做加法6.result输出成文件output_SUCCESS...

2022-03-30 09:48:59 204

原创 Hadoop_mapreduce2

面试题目1.hadoop解决数据倾斜的方法什么是数据倾斜?以及现象比如一个文件,abc a 1亿个 b 1个 c 1个做wordcountmap1 99% map2 100% map3 100%1.1combinera 1亿个 (a,1亿)b 1个 (b,1)c 1个 (c,1)减少数据的网络传输但是ava不适合,如果导致数据倾斜的kev分布在很多不同的文件,不同mapper,这种方法就不适合了。100mapper每个mapper里1万个a1.2 导致数据倾斜的kev分布在很多不同的

2022-03-28 22:31:05 2742

原创 Yarn

yarn 资源调度分配Mapreduce on yarnyarn主要的模块ResourceManager(RM)yarn的资源控制框架的中心模块,负责集群中所有的资源的统一管理和分配。调度器应用管理器ResourceScheduler(调度器)根据各个应用程序的资源需求,进行分配。Applications Manger(应用管理器)负责监控或跟踪AM的执行状态。NodeManger(名称节点,简称NM)是ResourceManager每台机器上的代理,负责容器的管理,并监控他们的资源

2022-03-26 19:59:10 1661

原创 hadoop HDFS2

HDFS读写流程HDFS client调用FileSystem.open(filePath),与NN进行[RPC]通信,返回该文件的block列表,返回FSDataInputStreamHDFS client调用FileSystem.read方法与第一个块最近的DN进行读取,读取完成后,检查是否OK?如果ok,就会关闭与DN通信如果不ok,就会从第二个节点去读取,以此类推当block列表全部完成后,HDFS client调用FSDataInputStream的close方法,关闭数据流..

2022-03-22 21:49:00 1566

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除