自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 SparkSQL的编程模型

简介主要通过两种方式操作SparkSQL:1)SQL;2)DataFrame和Dataset SQL:和Hive操作一样,操作的是表,用SQL进行操作需要将SparkSQL对应的编程模型转化为一张表,同时支持通用sql和hql DataFrame和Dataset:DataFrame和Dataset是SparkSQL中的编程模型DataFrame和Dataset可以理解为是一张mysq...

2020-03-08 12:21:40 163

原创 Hive的基本语法

DDLDDL:data-define-lauguage 数据定义语言库操作建库:create database if not exists dbname;切换库 :use dbname;查询正在使用的库:select current_database();查询库列表查询所有数据库:show databases;模糊查询:show databases like "*test";查...

2020-03-07 13:55:44 428 1

原创 MySQL的优化

优化数据库、表结构的设计,比如:合理的选用字段的数据类型,不同的数据类型的存储和检索方式不同,对应的性能也不同,尽量选用存储空间较小,长度固定的类型合理地选用表的存储引擎:常用的存储引擎有MyISAM、InnoDB、MemoryMyISAM不支持事务,表级锁,但是查询速度快InnoDB支持事务,行级锁设计表的时候尽量遵循三大范式1NF:数据库表的每一列都是不可分割的原...

2020-03-06 17:13:26 79

原创 Hive分区与分桶

分区定义:分区表是指按照数据表的某一字段或多个字段分为多个区,每一个区都可以可以理解为一个文件夹优点:在数据庞大的情况下创建分区表便于对数据进行管理,也可以提高查询的效率使用:在生产上一般以日期作为分区的字段,每一天的数据即时一个分区,存储在一个单独的文件夹内建表:Hive中创建分区表时可以使用partitioned by(col_name data_type 字段名与类型) 来指定分区表...

2020-03-06 16:52:38 146

原创 Hive的优化

hql会转换成MapReduce执行,所以应该从MapReduce的运行角度来优化性能,最要解决的问题是数据倾斜的问题。比如:尽量不要使用count(distinct) ,因为此时map端没有去重的操作,可以用嵌套子查询来替代,子表是去重后的表尽量使用MapJoin,在Map阶段把小表读入内存,扫描大表完成Join,就没有MapReduce的shuffle过程,也就不存在数据倾斜的问题聚合...

2020-03-05 19:14:16 197

原创 Hive中的函数

函数分类UDF user-define-function:用户定义函数进一条出一条UDAF user-define-aggregation-function:用户定义聚合函数进多条出一条如:max min avg sum countUDTF user-define-table-function:用户定义表函数进一条出多条如:explode函数内置函数在Hive2.3.2中...

2020-03-05 13:59:57 725

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除