新东方毕业生-CSDN博客

原创 SparkSQL的编程模型

简介主要通过两种方式操作SparkSQL：1）SQL；2）DataFrame和Dataset SQL：和Hive操作一样，操作的是表，用SQL进行操作需要将SparkSQL对应的编程模型转化为一张表，同时支持通用sql和hql DataFrame和Dataset：DataFrame和Dataset是SparkSQL中的编程模型DataFrame和Dataset可以理解为是一张mysq...

2020-03-08 12:21:40 163

原创 Hive的基本语法

DDLDDL：data-define-lauguage 数据定义语言库操作建库：create database if not exists dbname;切换库：use dbname;查询正在使用的库：select current_database();查询库列表查询所有数据库：show databases;模糊查询：show databases like "*test";查...

2020-03-07 13:55:44 428 1

原创 MySQL的优化

优化数据库、表结构的设计，比如：合理的选用字段的数据类型，不同的数据类型的存储和检索方式不同，对应的性能也不同，尽量选用存储空间较小，长度固定的类型合理地选用表的存储引擎：常用的存储引擎有MyISAM、InnoDB、MemoryMyISAM不支持事务，表级锁，但是查询速度快InnoDB支持事务，行级锁设计表的时候尽量遵循三大范式1NF：数据库表的每一列都是不可分割的原...

2020-03-06 17:13:26 79

原创 Hive分区与分桶

分区定义：分区表是指按照数据表的某一字段或多个字段分为多个区，每一个区都可以可以理解为一个文件夹优点：在数据庞大的情况下创建分区表便于对数据进行管理，也可以提高查询的效率使用：在生产上一般以日期作为分区的字段，每一天的数据即时一个分区，存储在一个单独的文件夹内建表：Hive中创建分区表时可以使用partitioned by（col_name data_type 字段名与类型）来指定分区表...

2020-03-06 16:52:38 146

原创 Hive的优化

hql会转换成MapReduce执行，所以应该从MapReduce的运行角度来优化性能，最要解决的问题是数据倾斜的问题。比如：尽量不要使用count(distinct) ，因为此时map端没有去重的操作，可以用嵌套子查询来替代，子表是去重后的表尽量使用MapJoin，在Map阶段把小表读入内存，扫描大表完成Join，就没有MapReduce的shuffle过程，也就不存在数据倾斜的问题聚合...

2020-03-05 19:14:16 197

原创 Hive中的函数

函数分类UDF user-define-function：用户定义函数进一条出一条UDAF user-define-aggregation-function：用户定义聚合函数进多条出一条如：max min avg sum countUDTF user-define-table-function：用户定义表函数进一条出多条如：explode函数内置函数在Hive2.3.2中...

2020-03-05 13:59:57 725

pengfei1410的博客