自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 mysql存储程序,存储函数

存储引擎​ Mysql的核心就是存储引擎,DBMS(数据库管理系统)借助于引擎实现增删改查操作。可以根据不同的功能来设置不同的存储引擎。​ InnoDB是事务型数据库的首选,执行安全性数据库,行锁定和外键。mysql5.5之后默认使用。​ MyISAM插入速度和查询效率较高,但不支持事务。​ MEMORY将表中的数据存储在内存中,速度较快。事务一系列的DML操作,要么同时成功,...

2019-05-22 15:56:07 185

原创 DQL高级查询

DQL高级查询多表查询(关联查询,连接查询)1.笛卡儿积(不关联外键)emp15条记录,dept表4条记录笛卡儿积emp每一条对应4条记录,60条记录2.内连接不区分主从表,与连接顺序无关,两张表均满足条件则出现在结果集中(交集)3.自然连接寻找两表中字段名称相等的字段进行连接(等同于join,会去重)4.外连接有主从表之分,与连接顺序有关。左外连接,以左表为驱动表,匹配表依...

2019-05-22 15:43:14 134

原创 mysql函数

mysql函数以及单表查询算术运算符+ - * / div特殊:select 3/4;—0.75 select 3/0; ---Null​ select 3 div 4; —0 div为整除,该运算符只取商的整数部分比较运算符> < >= <= != = <>select 1=1; 0表示fa...

2019-05-21 20:13:50 147

原创 spark数据倾斜与处理

数据倾斜的几种典型情况。​ 1.数据源中的数据不均匀,Spark需要频繁交互​ 2.数据集中的不同key由于分区方式,导致数据倾斜​ 3.JOIN操作中,一个数据集中的数据分布不均匀,另一个数据集较小​ 4.聚合操作中,数据集中的数据分布不均匀​ 5.JOIN操作中,两个数据集都比较大,其中只有几个key的数据分布不均匀​ 6.JOIN操作中,两个数据集都比较大,有很多Key分布不均匀...

2019-05-21 19:33:25 152

原创 SparkSQL数据源

Spark SQL的输入输出1.对于Spark SQL的输入需要使用sparkSession.read方法语法 sparkSession.read.format(“json”).load(“path”) 支持类型:(parquet,json,text,csv,jdbc,orc)专业模式: sparkSession.read.json , csv可以直接指定类型2....

2019-05-21 19:32:13 74

原创 spark的核心概念

名词解释1.ClusterManager:在standalone模式中是Master(主节点),控制整个集群,监控Worker。在YARN模式下是资源管理器。注意:spark是存储在内存中,不需要管理存储,无论是Master,还是resourcemanager资源管理器,主要都是管理资源的(cpu,内存)。2.Worker:从节点,负责控制计算节点,启动Executor。在YARN模式中为N...

2019-05-05 17:49:18 395

原创 SparkSQL和RDD,DataFrame,DataSet的转换

1.简介:​ SparkSQL的前身是Shark,Shark的底层实现是依赖于Hive,Shark的发展受制于Hive的发展,后来项目组将Shark项目废弃,保留了其中的一些非常优秀的特点:比如内存列存储技术,动态字节码技术等等,重新组织了一个项目,这个项目就是SparkSQL,同时在hive里面也推出了一个子模块,是hive的计算引擎基于spark,hive-on-spark​ 需要明确...

2019-05-05 17:38:24 2832

原创 HDFS工作机制

Hadoop心跳机制(heartbeat)1.为什么会出现心跳机制?​ 心跳机制是主节点master监控从节点slaver的状态的,如果没有心跳机制,slaver宕机或者存储的块数据出现异常依旧处于工作状态,等master在下达命令时在连接,会严重影响任务的进行。所以出现了心跳机制2.心跳机制是什么?​ 简单来说就跟老师和学生,学生每隔一段时间向老师交一次作业,老师根据所交的作业来判断你是...

2019-04-29 16:44:55 813

原创 NameNode的元数据一致性

​        hdfs是一个分布式的存储系统,主要成员就是NameNode,DataNode,SecondaryNameNode我们知道NameNode主要职责之一就是存储元数据,维护目录树的。因为对元数据的访问比较频繁,所以,我们的元数据是存储在内存中的。但是,一旦出现断点,元数据丢失,那么整个集群将会瘫痪。所有我们就会把...

2019-04-29 15:48:18 675

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除