KayLa-JL-CSDN博客

原创 hive数据倾斜优化

在谈及数据倾斜的问题时，首先会想什么事数据倾斜？简而言之就是由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点。主要表现：任务进度长时间维持在 99%或者 100%的附近，查看任务监控页面，发现只有少量 reduce子任务未完成，因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大，通常达到好几倍之多，最长时间远大于平均时长。容易数据...

2019-12-12 20:07:29 272

原创 Oracel中With...as..的用法，总结

Oracel中With...as..的用法，总结：首先要先了解with...as...的语法：withtempNameas(select....)select...接下来一1-19中得到11-14为例进行模拟.........一般的sql如下：select*from(--模拟一个20行的数据SELECTL...

2019-07-13 15:44:12 1330

原创 orcel 中常用到的更改表的结构的语句

好久没有更新自己的博客了，趁着今天加班偷点闲，把最近常用到的oracle更改表结构的语法和例句整理出来，希望自己能帮助更多的人，顺便积累一些经验，嘿嘿嘿，加油！！！1.编辑表的字段：修改一个列的数据类型(一般限于修改长度，修改为一个不同类型时有诸多限制): 语法: ALTER TABLE 表名 MODIFY(列名数据类型);eg1: alter table skat...

2019-07-13 15:30:41 442

原创数据仓库中的几种数据模型

数据仓库中常见的模型有：范式建模，雪花模型，星型建模，事实星座模型.星型模型星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星型模型的特点是数据组织直观，执行效率高。因为在数据集市的建设过程中，数据经过了预处理，比如按照维度进行了汇总，排序等等，数据量减少，执行的效率就比较高。雪花模型雪花模型也是...

2019-02-27 13:59:48 1243

原创数据仓库分层

数据仓库为什么要分层1、如何分层结合Inmon和Kimball的集线器式和总线式的数据仓库的优点，分层为ODS【-MID】-DW-DM-OLAP/OLAM/appODS层是将OLTP数据通过ETL同步到数据仓库来作为数据仓库最基础的数据来源。在这个过程中，数据经过了一定的清洗，比如字段的统一，脏数据的去除等，但是数据的粒度是不会变化的。ODS层的数据可以只保留一定的时间。MID中间层是采用...

2019-02-27 06:54:33 289

原创用Sqoop将mysql中的表和数据导入到Hive中

1、安装mysql 查询以前安装的mysql相关包 rpm -qa | grep mysql 暴力删除这个包 rpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodeps rpm -ivh MySQL-server-5.1.73-1.glibc23.i386.rpm rpm -ivh MySQL-client-5.1.73-1....

2019-02-19 11:53:53 1247

转载 kafka connect

一. Kafka Connect简介　　Kafka是一个使用越来越广的消息系统，尤其是在大数据开发中（实时数据处理和分析）。为何集成其他系统和解耦应用，经常使用Producer来发送消息到Broker，并使用Consumer来消费Broker中的消息。Kafka Connect是到0.9版本才提供的并极大的简化了其他系统与Kafka的集成。Kafka Connect运用用户快速定义并实现各种C...

2019-02-12 17:51:01 991

转载 Hadoop-2.7.3源码分析：MapReduce作业提交源码跟踪

1、提交JobMapReduce程序框架请参考 http://blog.csdn.net/chengyuqiang/article/details/72804007@Override public int run(String[] args) throws Exception { //读取配置文件 Configuration conf = getC...

2018-12-05 14:22:23 197

原创 MongoDB、Redis 数据库介绍与区别

NoSQL 的全称是 Not Only SQL，也可以理解非关系型的数据库，是一种新型的革命式的数据库设计方式，不过它不是为了取代传统的关系型数据库而被设计的，它们分别代表了不同的数据库设计思路。MongoDB：它是一个内存数据库，数据都是放在内存里面的。对数据的操作大部分都在内存中，但 MongoDB 并不是单纯的内存数据库。MongoDB 是由 C++ 语言编写的，是一个基于分布式...

2018-12-05 14:12:22 321

原创 Oracle的存储过程理解

1、什么是存储过程：存储过程是数据库服务器端的一段程序，它有两种类型。一种类似于SELECT查询，用于检索数据，检索到的数据能够以数据集的形式返回给客户。另一种类似于INSERT或DELETE查询，它不返回数据，只是执行一个动作。有的服务器允许同一个存储过程既可以返回数据又可以执行动作。2、什么时候需要用存储过程：　　如果服务器定义了存储过程，应当根据需要决定是否要用存储过程。存储过程通常是一...

2018-12-04 13:46:05 383

原创 Linux集群搭建

一.克隆、设置IP、主机名、网卡，重启后尝试联网第一种方式1.vi /etc/sysconfig/network-scripts/ifcfg-eth02.vi /etc/sysconfig/network3.vi /etc/udev/rules.d/70-persistent-net.rules第二种方式1.vi /etc/sysconfig/network-scripts/i...

2018-10-13 10:16:58 185

原创 hive表的源文件存储格式

Hive文件存储格式1.textfiletextfile为默认格式存储方式：行存储磁盘开销大数据解析开销大，压缩的text文件 hive无法进行合并和拆分（建表时不指定它会默认为这个格式，导入数据时会直接把数据文件拷贝到HDFS上不进行处理，源文件可以直接通过hadoop fs -cat 查看。）2.sequencefile二进制文件,以<key,value>的形式序...

2018-10-13 10:07:34 782

原创 hql 优化

优化时，把hql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。对分区插入数据(每次都会覆盖掉原来的数据):hive.map.aggr=trueMap 端部分聚合，相当于Combinerhive.groupby.skewindata=true有数据倾斜的时候进行负载均衡，当...

2018-10-13 09:47:05 4361 1

原创 SQL规范

1.使用明确、统一的标明和列名，例如 School, SchoolCourse, CourceID。2.数据表名使用单数而不是复数，例如 StudentCourse，而不是StudentCourses。3.数据表名不要使用空格。4.数据表名不要使用不必要的前缀或者后缀，例如使用School，而不是TblSchool，或者SchoolTable等等。5.数据库中的密码要加密...

2018-10-13 09:41:48 741

原创什么是事务,事务的四个特性是什么

最近在学习pgSQL，忽然想到一个问题，pgSQL的事务是否和其他事务一样呢？由此就有了这篇小结。首先什么是事务？事务（Transaction）是并发控制单位，是用户定义的一个操作序列，这些操作要么都做，要么都不做，是一个不可分割的工作单位。事务通常以BEGIN TRANSACTION开始，以COMMIT或ROLLBACK结束。事务的 ACID又是什么？事务具有四个特征：原子性（ Atom...

2018-07-12 20:17:05 27519 2

原创 CUBE和ROLLUP函数的用法及区别

SQL 中ROLLUP 用法ROLLUP 运算符生成的结果集类似于 CUBE 运算符生成的结果集。下面是 CUBE 和 ROLLUP 之间的具体区别：CUBE 生成的结果集显示了所选列中值的所有组合的聚合。ROLLUP 生成的结果集显示了所选列中值的某一层次结构的聚合。ROLLUP 优点：（１）ROLLUP 返回单个结果集，而 COMPUTE B

2017-11-28 20:31:03 670

翻译 hive2.0函数大全

摘要Hive内部提供了很多函数给开发者使用，包括数学函数，类型转换函数，条件函数，字符函数，聚合函数，表生成函数等等，这些函数都统称为内置函数。目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数数学函数Return TypeName (Signature)

2017-09-20 14:09:12 445

原创 Spark和Hadoop之间的关系

Spark与Hadoop关系Spark是一个计算框架Hadoop是包含计算框架MapReducehe分布式文件系统HDFS。 Spark是MapReduce的替代方案，而且兼容HDFS、Hive等分布式存储系统，可融入Hadoop生态。 Spark与Hadoop MapReduce优势如下1 中间结果输出 MapR

2017-08-11 09:57:30 8537

原创 scala中None Null Nothing 和 Nil的区别

None是一个object，是Option的子类型，定义如下 [java] view plain copy print?case object None extends Option[Nothing] { def isEmpty = true def get = throw new NoSuchElementException("None.g

2017-08-01 14:51:04 1280

原创 Sql查询联系

查询练习（四十五道题）题目：设有一数据库，包括四个表：学生表（Student）、课程表（Course）、成绩表（Score）以及教师信息表（Teacher）。四个表的结构分别如表1-1的表（一）~表（四）所示，数据如表1-2的表（一）~表（四）所示。用SQL语句创建四个表并完成相关题目。表1-1数据库的表结构表（一）Student (学生表)

2017-07-10 15:24:18 2016

原创 JavaWeb网页版计算器实现

第一种用javascript方法编写的计算器[html] view plain copy%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> % String path = request.getContextPath(); String basePath =

2017-07-07 09:21:21 9757 3

原创 R语言大体概括。

一.数据分析所具备的知识和技能？1.计算机基础 2.数学和统计知识 3.业务相关的二.数据科学家的分类1.数据开发 2.数据检测分析 3.数据挖掘 4.数据商人三.完整的数据分析流程1.定义研究问题，定义理性的数据集，确定能够获取什么数据，获取数据，清理数据2.探索性分析（数据可视化），统计分析、建模（机器学习）等3.解释/交流的结果（数据

2017-07-03 14:42:58 444

原创 Storm个人总结，有兴趣的可以瞅瞅喔。。。。

在学习Storm的时候我们先要自己搜点有关Storm的简介，要对它充满好奇感！好了废话不多说，言归正传。一.Storm是什么？storm是一个流式实时计算框架。能实现高频[指实时]数据和大规模数据的实时处理二.Storm的组成有哪些？Topology 用于封装一个实时计算应用程序的逻辑，类似于Hadoop的MapReduce JobStream 消息流，是一个没有边界的

2017-07-03 14:23:53 337

原创初识Kafka----个人理解，希望对喜欢kafka的朋友有帮助

1、什么是kafka?kafka是一个发布订阅系统，主要用作缓存2、核心概念首先kafka是一个集群，有很多个节点组成。Broker['brəʊkə]:节点名称每一个节点称作brokermessage ['mesɪdʒ】:就是指发布到kafka的每一条记录。Message queue:消息队列Topic['tɒpɪk]:就是主题，意思是一类消息。我们发

2017-06-12 20:18:20 395

原创 HIVE和HBASE区别

1. 两者分别是什么？ Apache Hive是数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询--因为它是基于MapReduce算法。 Apache Hbase Key/Value，基础单元是cell，它运行在HDFS之上。和

2017-06-06 10:20:10 12915 2

原创 HBase安装以及多个HMaster配置步骤

1.解压缩hbase-0.94.6.tar.gztar zxvf hbase-0.94.6.tar.gz2.配置hbase环境变量/etc/profileexport HBASE_HOME=/home/hadoop/hbaseexport PATH=$PATH:$HBASE_HOME/bin3.修改hbase/conf/的配置文件：hbase-env.shexport

2017-05-31 15:02:24 3646

原创 HDFS高可用原理，个人理解嘿嘿嘿

HDFS的高可用性将通过在同一个集群中运行两个NN（active NN & standby NN）来解决上面两个问题，这种方案允许在机器破溃或者机器维护快速地启用一个新的NN来恢复故障，为了让Standby NN的状态和Active NN保持同步，即元数据保持一致，它们都将会和JournalNodes守护进程通信。当Active NN执行任何有关命名空间的修改，它需要持久化

2017-05-30 19:47:49 677

原创 hive变量调用 hive和shell hdfs命令交互调用 hiverc预定义初始化

hive变量调用 hive和shell hdfs命令交互调用 hiverc预定义初始化 1 hive使用外部变量：分为4种情况， hive中引用外部变量：在代码中引用时使用${...};方式1：[root@h2single bin]# hive -d name=username; 随便定义变量后在hive中使用此变量

2017-05-22 16:13:32 2293

原创 spring异常解决方法：org.springframework.beans.factory.BeanCreationNotAllowedException

错误信息： org.springframework.beans.factory.BeanNotOfRequiredTypeException: Bean named 'aisleService' must be of type [com.gdie.whlocation.service.impl.AisleService], but was actually of type [$Prox

2017-04-14 11:50:17 19724 2

原创 hive 复制整段语句是出现 Display all 475 possibilities? (y or n)错误的处理方法

在用hive时，复制一整片代码运行，发现好多提示： Display all 475 possibilities? (y or n)导致复制失败，一查原因，原来是复制的代码中包含了Tab缩进，只要将原来复制的代码中的Tab空格全部去掉即可，完美解决问题~

2017-04-05 22:17:03 1038

原创 RDD算法Action

import org.apache.spark.sql.SparkSession/** * Created by LE on 2017/3/22. */object DemoAction { def main(args: Array[String]): Unit = { val spark = SparkSession.builder.appName("DemoActio

2017-03-30 10:16:26 431

原创 Azkaban学习小结

oozie概述：oozie是基于hadoop的调度器，以xml的形式写调度流程，可以调度mr，pig，hive，shell，jar等等。主要的功能有Workflow：顺序执行流程节点，支持fork（分支多个节点），join（合并多个节点为一个）Coordinator，定时触发workflowBundle Job，绑定多个coordinator

2017-03-30 10:01:04 855

原创 Flum 日志收集系统学习小结

1.Flum 是Cloudera提供的一个高可用的，高可靠的分布式的海量日志采集聚合和传输的系统，它支持在日志系统中制定各类数据发送方。用于收集数据，同时对数据进行简单的处理，并写到各种数据接收方的能力。2.Flum 架构：它本身的一个设计agent. agent本身是Java进程运行在日志收集节点---所谓日志节点就是服务器节点3Flum包含三个核心组件：source:完成对日志数据的收

2017-03-29 23:02:53 2441 2

原创 hive表的信息查询：表结构，表查询。。。

1.hive模糊搜索表 show tables like '*name*';2.查看表结构信息 desc formatted table_name; desc table_name;3.查看分区信息 show partitions table_name;4.根据分区查询数据 select table_coulm from table_nam

2017-03-29 22:56:35 5360

原创 SparkRDD学习之map ,flatmap,mappartitions,glom,union,cartesian,groupby,filter,distinct,subtract代码

import org.apache.spark.sql.SparkSessionimport scala.collection.mutable.ArrayBuffer/** * Created by LE on 2017/3/23. */object DemoTransformations { //spark入口 def main(args: Array[String])

2017-03-25 14:32:23 611

原创 hadoop学习总结

1、hdfs 分布式文件系统 namenode 分布式文件管理系统的老大，管理着元数据 datanode 存储文件块，默认是128M secondarynamenode 定期合并namenode上的元数据文件（主要是合并fsimage，通过叫edits的日志文件）2、mapreduce分布式计算框架 map 完成数据读取，清洗，存储 r

2017-03-24 20:54:04 296

原创 MapReduce学习

--MapReduce概述 MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。 MR由两个阶段组成：Map和Reduce，用户只需要实现map（）和reduce（）两个函数，即可实现分布式计算，非常简单。-map阶段 1.读取输入文件内容，解析成key，value对。对输入文件的每一行，解析成key，val

2017-03-24 20:40:56 20802

原创 hive表信息查询

1.hive模糊搜索表 show tables like '*name*';2.查看表结构信息 desc formatted table_name; desc table_name;3.查看分区信息 show partitions table_name;4.根据分区查询数据 select table_coulm from table_name

2017-03-23 11:52:34 499

转载 Java工程师技能表

经常有网友问，“我应该学习什么？” “学哪些东西才能找得到工作？” 其实方法在之前文章中都说过了“查看BAT等IT大公司招聘岗位，特别是校园招聘的技术类岗位，看看招聘的岗位技能要求”虽然给了方法，可是还是有许多人一直问，特别是Java方面的。所以，猿哥选了450家知名企业Java工程师招聘信息，统计出来：Java工程师技能表。

2017-03-23 11:13:27 1217 1

原创 Java面试

Java基础此时一般会问到一些Java的基础知识，比如synchronized static修饰类和方法有什么区别HashMap的原理，底层数据结构，rehash的过程，指针碰撞问题HashMap的线程安全问题，为什么会产生这样的线程安全问题ConcurrentHashMap的数据结构，底层原理，put和get是否线程安全Java IO的一些内容，包括NIO，BIO等1.2

2017-03-21 17:34:34 472

空空如也

空空如也