自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 spark自定义UDAF函数

import org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types.{DataType, StringType, StructField, StructType}class GroupConcatDistinct extends UserDefin.

2020-06-23 09:42:34 156

原创 scala中常用工具类整理

/* * Copyright (c) 2018. Atguigu Inc. All Rights Reserved. */package commons.utilsimport java.text.SimpleDateFormatimport java.util.{Calendar, Date}import net.sf.json.JSONObjectimport org.joda.time.DateTimeimport org.joda.time.format.DateTimeFo.

2020-06-20 13:20:09 601

原创 HBASE知识回顾

HBase 概念NameSpace : 可以把NameSpace理解为RDBMS的“数据库”Table:表名必须是能用文件路径里的合法名字(Hbase表映射为HDFS上文件)Row : 在表里面,每一行代表一个数据对象,每一行都是以一个行键来进行唯一标识的,行键没有特定的数据类型,以二进制字节来存储Column :Hbase的列由Column family 和Column qualifier 组成,由冒号(:)进行间隔,比如family :qualifierRowKey : 可以唯一标识一行记录.

2020-06-19 10:43:21 271

原创 Kafka知识回顾

为什么要使用Kafka?1.解耦合2.削峰kafka基本架构与message结构kafka由producer,broker,consumer组成message由key和value组成如果key不为空会根据hashcode值,分配到不同的分区里面如果key == null,则从sendPartitionPerTopicCache(sendPartitionPerTopicCache的类型是HashMap.empty[String, Int])中获取分区ID,如果找到了.

2020-06-19 09:51:09 163

原创 Flume框架回顾

Flume的三大组件以及Event结构?source ,channel,sinkEvent有两部分构成:header和body,body里面是存真正数据的1)Source(1)Taildir Source相比Exec Source、Spooling Directory Source的优势TailDirSource:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。ExecSource可以实时搜集数据,但是在Flume不运行或...

2020-06-19 08:48:10 149

原创 sparkstreaming和kafka集成知识回顾

SparkStreaming的Recevier方式和直连方式有什么区别?Recevier接收固定时间间隔的数据(放在内存当中),使用kafka高级的API,自动维护偏移量,达到固定时间才进行处理,效率低并且容易丢失数据Direct直连方式,相当于直接连到kafka的分区上,使用kafka底层的API,效率高,需要自己维护偏移量...

2020-06-18 11:35:34 206

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除