夏天小厨-CSDN博客

原创 Hive操作——复制表结构和数据

这篇博文将分享给你如何将hive中B库的表复制到A库中。如下图，将cserver中的表的结构以及数据都复制到xpu中。本篇将分为两个部分：复制表结构、复制结构+数据。一、复制表的结构写法：CREATE TABLE A.new_table LIKE B.old_table;(需要A数据库提前创建好，否则会报找不到)这里将cserver的iot_devicelocation复制到xpu...

2019-07-02 11:58:46 22514 1

原创 Hive操作——删除表(drop、truncate)

Hive删除操作主要分为几大类：删除数据（保留表）、删除库表、删除分区。我将以下图为例清空iot_devicelocation中的数据，之后再删除表、库等。首先来看一下iot_deivcelocation中的数据。select * fromiot_deivcelocation。一、仅删除表中数据，保留表结构hive> truncate table iot_device...

2019-07-02 10:57:30 128214 1

问题描述：由于业务场景的需要数据，所以我的数据是从2017-01-01 00:00:00开始的，数据源是kafka。从下图可以看出，我的Cube分为三次去build，第一次是0-40595条，第二次是40595-55706条，第三次55706-62307，也就意味着我Cube中含有的records应该为62307条。之后奇怪事情发生了，因为我之前定义了auto merge ,所以在我build第三...

2019-06-06 15:26:22 2191

原创 Kylin构建Cube优化

【Kylin 技术贴倾情奉献——夏天小厨原创】Apache Kylin官宣它的定位是一款千亿级OLAP引擎，在其高性能的背后，Cube的构建显得至关重要。因此优化Cube也成为数据分析必不可少的技能之一，那为什么要优化Cube呢？因为随着维度数的增加，Cuboid的数量会随其爆炸式递增，如果不优化Cube,不仅Build Cube时间会很漫长，而且Cube的膨胀率也会让你害怕，从而占用大量的磁盘空...

2019-05-17 18:09:19 2288

原创 CentOS7 时间与网络时间同步

在做分布式集群开发时，经常会遇见集群时间节点不一致，从而造成某个节点服务进程启动失败或者通信失败。今天分享一下Centos下如何将本地集群时间和网络时间同步，这样妈妈再也不用担心我因为时间不一致而出现的失败情况。问题描述：使用date命令查看之后，发现时间与本地时间不一致。三步解决方法：1、安装ntpdate工具[root@slave1 ~]# yum -y insta...

2019-04-29 15:18:12 56634

原创 Flink常用算子Transformation（转换）

在之前的《Flink DataStream API》一文中，我们列举了一些Flink自带且常用的transformation算子，例如map、flatMap等。在Flink的编程体系中，我们获取到数据源之后，需要经过一系列的处理即transformation操作，再将最终结果输出到目的Sink（ES、mysql或者hdfs），使数据落地。因此，除了正确的继承重写RichSourceFunction...

2019-04-17 21:27:12 11751 1

原创 Flink从kafka中读数据存入Mysql Sink

上篇文章我们描述了如何通过继承RichSourceFunction来实现自定义的Source。本篇中我们将继续讲述如何通过connector读取源数据，并将读取的数据存入到其他数据存储系统中，主要的思路就是Flink作为消费者来消费Kafka Topic中的数据，并将数据实时的插入到mysql/Hbase中。数据格式是模拟网站的点击日志：city,loginTime(登录时间)，OS(操作系统)，...

2019-04-13 15:45:17 5776 1

原创 Flink自定义DataSource之MysqlSource

很久没更新博客了，最近两周先后准备了两个比赛，还好，结果都不错，继续加油。回归正常的Flink学习之路。在Flink使用中经常需要自定义DataSource，以满足实际业务需求。Flink Source原生支持包括Kafka、RabbitMQ等一些常用的消息队列组件或者类似ES这样基于文本索引的高性能非关系型数据库，而对于写入关系型数据库或Flink不支持的组件中，需要借助RichSource...

2019-04-10 17:57:21 9614 7

原创 JDBC操作Hive出现的错误

上一篇咱们说到用JDBC去操作Hive，这篇文章主要是将其中由于未添加某个jar包导致的错误罗列出来。基本的错误都是没找到类：java.lang.ClassNotFoundException，只是出现的地方不同而已一、org/apache/http/HttpRequestInterceptor这是由于没有添加httpcore-4.4.jar 包导致的错误，详细错误如下：二、o...

2019-03-29 17:41:56 3903 1

原创通过JDBC连接Hive

使用JDBC去操作hive可能是程序员们比较喜欢的一种方式，今天来总结一下使用java api来对hive进行增删查改，这里我主要演示对hive表中数据的操作，不创建表已经改变表原有的结构。本文基于hive已经能正常使用的情况。首先hive必须以服务方式启动，平台默认启动时hive server2 模式。hiveserver2是比hiveserver更高级的服务模式，提供了hiveserver...

2019-03-29 17:16:04 3613 1

原创 Flink DataStream API

实时分析是当前一个比较热门的数据处理技术，因为许多不同领域的数据都需要进行实时处理、计算。到目前为止，有很多技术提供实时的解决方案，包括Storm、Spark Streaming等。这些需求源自于物联网的应用程序需要存储、处理和实时或近实时分析，为了满足这种需求，Flink提供了数据流处理API即DataStream API。在总结DataStream API之前，我们先简单的了解一下Flin...

2019-03-21 17:30:12 2099

原创 HBase Master is initializing的错误可能

今天，在启动kylin时，报Failed to find metadata storeby url: kylin_metadata@hbase，确认这肯定是hbase的错误导致kylin无法正常启动，于是进入hbase shell，输入list命令测试，果然出现hbase.PleaseHoldException: Master is initializing，从字面可以知道，主节点正在初始化，请...

2019-03-20 20:29:56 25611 8

原创 Flink on Yarn的两种模式及HA

Flink on Yarn模式部署始末：Flink的Standalone和on Yarn模式都属于集群运行模式，但是有很大的不同，在实际环境中，使用Flink on Yarn模式者居多。那么使用on yarn模式到底好在哪呢？首先，在集群运行时，可能会有很多的集群实例包括MapReduce、Spark、Flink等等，那么如果它们全基于on Yarn就可以完成资源分配，减少单个实例集群的维护，提高...

2019-03-11 17:57:14 6160 3

原创 Kafka之Producer API使用【java版本】

前段时间需要配合kylin的流式计算，所以用java写了一个producer的程序，每秒向topic中产生数据，kylin则作为Topic的Consumer。主要的功能就是随机产生一些数据，这个程序里面主要的点个人认为是：时间戳的随机生成，发送JSON数据格式。直接上点干货，任何问题都可以在下方评论，小厨尽全力解决。package com.bigdata.kylin;import jav...

2019-03-08 14:54:24 2328

原创 shell脚本之大数据集群一键启动

在日常操作中，我们搭建了很多集群，例如hadoop、zookeeper、Hbase、kafka、Flume、kylin等，每次启动以及停止这些进程都很麻烦，例如zookeeper还需要一台机器一台机器的登录然后执行命令，这样极其不方便。所以今天要跟大家分享的就是使用shell脚本去启动这些进程。一、zookeeper集群1、zookeeper集群启动，创建start_zk.sh文件，写入以...

2019-03-08 11:08:07 865

原创 Kafka+kylin——kylin2.5.0流式构建

《一份详细的Kylin执行样例——基于kylin2.5.0》一文中，小厨介绍了如何使用kylin，今天开辟一个新路线，个人感觉随着时代的发展，数据实时分析会成为主力军，因为今天介绍一下Kafka+kylin，流式构建cube。kylin是从1.5版本开始，引入Streaming Table，目的是减少OLAP分析的延时，到目前的2.5.0版本 Streaming做的已经相当较成熟了。主要方法：...

2019-03-07 22:03:11 4110 3

原创 Flink1.7.2安装部署的几种方式

前言：Flink的运行一般分为三种模式，即local、Standalone、On Yarn。在安装Flink之前，需要对安装环境进行检查。本文是建立在Hadoop、Zookeeper等常规大数据软件都已经安装成功的前体下，由于在时间环境中，常常需要Hadoop的组件配合Flink，因此我们在官网下载安装包时，需要找到对应Hadoop版本的Flink安装包以及系统中Scala的版本，我使用的版本...

2019-02-28 21:04:56 8787

原创 Apache Flink简介

Flink作为实时流处理界的新秀，以其优越的性能被越来越多的公司使用。1、Flink简介Apache Flink是新一代的大数据处理引擎，目标是统一不同来源的数据处理。同时，Flink也是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时（Flink Runtime），提供支持流处理和批处理两种类型应用的功能，Flink本身提供了DataSet和Data...

2019-02-25 11:33:34 720

原创一份详细的Kylin执行样例——基于kylin2.5.0

在《Kylin2.5.0安装部署及样例sample.sh》一文中，我们搭建了kylin2.5.0版本的运行环境，并且简单演示了一下官方的Sample Cube的示例，这样从宏观上对kylin的运行流程有了一个整体的认识。那么，这篇文章我们将继续从创建一个完整的cube到执行sql语句，对其中的每一步都做一个详细的描述。本文的业务背景来自于蒋守壮老师的《基于Apache Kylin构建大数据分析平台...

2019-01-18 13:42:17 3609 11

原创 kylin1.5.2安装部署及测试用例

【kylin详细部署使用文档】之前部署了一套kylin2.1.0版本，在进入web界面之后，出现了无法创建cube等一系列错误，于是根据版本要求，小厨将kylin的安装版本设置成了1.5.2，在三台虚机上重新部署一套单节点的kylin服务。在这里就省去上传jar包之类的操作，直接从需要更改配置文件开始。一、配置环境变量添加以下内容：将kylin所依赖的环境都配置上，切记HCAT_HOM...

2019-01-03 20:46:44 831

原创 kylin使用出现的坑(三)——java.sql.SQLException：No suitable driver found for jdbc:mysql://localhost:3306/hive?

异常信息描述：kylin的cube在build时，#2 Step Name: Extract Fact Table Distinct Columns出现java.sql.SQLException的错误。如下所示：java.sql.SQLException: No suitable driver found for jdbc:mysql://localhost:3306/hive？creat...

2019-01-03 20:41:52 2883

原创 kylin使用出现的坑(二)——FileNotFoundException:../capacity-scheduler/*.jar(没有文件或目录)

在安装完毕之后，登录WebUI即master:7070/kylin。界面报拒绝连接，于是去查日志，因为此时kylin还没有真正运行起来，所以/kylin/logs目录下根本没有有用的目录，如下图：想起来kylin是依靠Tomcat运行的，于是在Tomcat的logs文件夹下找到日志，发现是下面这个错：java.io.FileNotFoundException:/usr/hadoop/h...

2019-01-03 20:34:53 1767

原创 kylin使用出现的坑(一)——java.net.UnknownHostException: XXXX;invalid IPv6 address

异常Kylin在启动之后报一下错误：java.net.UnknownHostException: 192.168.83.131:2181: invalid IPv6 address，具体如下图所示这是由于端口号2181在zk connectString里写了两遍，从而造成了master:2181:2181的情况。cd /usr/hbase/conf vi hbase-site...

2018-12-25 12:53:27 15632

原创 Kylin2.5.0安装部署及样例sample.sh

由于Kylin本身只是一个Server，所以安装部署还是比较简单的。但是不得不说Kylin对各个协作系统的版本要求还是比较高的。最新官网kylin v2.5版本的要求各个软件版本为OS: Linux only, CentOS 6.5+ or Ubuntu 16.0.4+（本文用的是：CentOS 7） Hadoop: 2.7+, 3.1+（本文：2.8.5） Hive: 0.13 - 1....

2018-12-25 12:43:19 1554 1

原创 Flume+Kafka整合案例实现

一、为什么要集成Flume和Kafka我们很多人在在使用Flume和kafka时，都会问一句为什么要将Flume和Kafka集成？那首先就应该明白业务需求，一般使用Flume+Kafka架构都是希望完成实时流式的日志处理，后面再连接上Flink/Storm/Spark Streaming等流式实时处理技术，从而完成日志实时解析的目标。第一、如果Flume直接对接实时计算框架，当数据采集速...

2018-12-17 11:23:34 22264 6

原创 Flume+HDFS实战及遇到的坑

《Flume Source组件实战—Avro、Spool、Exec（详细图文）》一文中，我们介绍了集中不同的Source 组件的使用方式，Source监控取到的数据大多数都是通过LoggerSink输出Cli端界面上，并没有将这些数据真正下沉落地，那么这里LoggerSink记录INFO级别的日志，一般多数用来进行系统调试。在本文中，我们将着重介绍在生产环境中常用的sink组件：HDFS Sink...

2018-12-13 16:20:04 10390 1

原创 Flume Source组件实战—Avro、Spool、Exec（详细图文）

在Flume原理剖析和安装部署章节，我们最后提到NetCat Source的实例，实现了监听一个指定的网络端口，只要在应用程序向这个端口里面写数据，这个NetCat Source组件就能获取到信息。本章内容继续讲解Flume Source的其他几个常用组件，Avro Source、Spool Source、Exec Source，后两者是属于自动监控读取文件的source组件。因为本文只测试Sou...

2018-12-11 17:03:07 6350

原创 Flume1.8.0原理解析及安装部署

Flume是数据收集/聚合/传输的组件，也是我们生产环境中常用的日志收集传输系统，常用的一种日志实时处理架构就是Flume+Kafka+Storm/Flink+HDFS，这些实时系统的集成日后我们会提及到。一背景简介：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，2009年贡献给Apache并成为顶级项目。Flume支持在日志系统中定...

2018-12-10 20:47:22 789

原创 Kafka实战及常见问题解决方法

上一篇技术博客讲解了kafka基本原理以及kafka分布式集群搭建方法，需要这些知识的小伙伴可以查看小厨的《Kafka原理介绍及其分布式安装使用》。本篇博客主要内容是一些kafka的常规操作，包括kafka-topic操作、kafka-producer操作、kafka-consumer操作。良心出品。。。。。1 Kafka-Topic操作添加：新增一个Kafka topic：“mobil...

2018-11-29 21:12:46 12364 2

原创 Kafka之server.properties配置文件详解

我们在搭建kafka集群时，根据业务目标不一样，对配置文件的修改补充也会有一些不同。在查看kafka的config目录之后，发现里面有很多的配置文件，但正在需要修改的有1、producer.properties:生产端的配置文件；2、consumer.properties:消费端的配置文件；3、server.properties:服务端的配置文件。其中最为重要的应该属于服务端的配置文件。这里，小厨...

2018-11-29 17:05:10 9132 1

原创 Kafka原理介绍及其分布式安装使用

今天看到特别励志的一段话，加工一下送给大家。智能产品改变世界，代码改变智能产品，你改变代码 ===推出==》你改变世界。对，没错，你现在正在做的，就是在改变世界。1 Kafka简介Kafka是一个分布式发布（pub）—订阅（Sub）消息系统，消息中间件。由linkedin使用scala编写，用作LinkedIn的活动流（Activity Stream）和运营数据处理管道（Pip...

2018-11-28 17:53:37 906 2

原创超详细的Sqoop介绍及安装使用文档

这应该是全网目前最全的Sqoop文档了吧，小厨为大家奉献整篇内容包括:Sqoop架构、原理、安装、使用等。目录1 Sqoop简介2 Sqoop原理2.1 import原理2.2 export原理3 准备工作：配置数据库远程连接4 安装Sqoop5 Sqoop查询命令6 Sqoop与Hdfs之间导入导出6.1 关系型数据库导入到HDFS（以mys...

2018-11-27 19:57:53 2537 2

原创 Storm整合Hdfs—从hdfs读取数据（二）

小厨上次写过一次利用Storm从hdfs读取数据，但是效果非常不好，例如只能读取一次文件，无法控制读文件的次数。如下图所示：：：因此，在这里，小厨利用第二种方法读取hdfs数据。需求：1、可以连续的读整个文件夹下面的内容；2、读完最后一个文件之后，退出Topo整个代码1：编写程序入口package com.bigdata.storm;import org.apache.sto...

2018-11-27 19:09:35 1565

原创 Storm-1.2.2介绍及完全分布式安装

目录1 Storm是什么2 Storm的核心概念3 Storm原理架构4 Storm集群安装部署4.1 下载Storm 1.2.24.2 解压，更改配置文件4.3 将配置好的节点分发到两个从节点上5 启动storm集群及web监控1 Storm是什么Apache Storm是一个分布式的、可靠的、容错的实时数据流处理框架。Storm是Twi...

2018-11-27 18:27:18 1686 1

原创 storm整合hdfs—从hdfs读取数据（一）

在做这个实验之前，查看了官方文档的demo以及【Gpwner的博客】，在他的博客里找到了很多灵感，感谢前人的无私奉献。利用storm从hdfs读取数据，这个做法很少，就连官网给出的demo也少的可怜，众人拾柴火焰高，今天小厨也来添一把柴火，po出自己写的一个小demo，要读的数据正是上一篇博文《storm整合hdfs—将数据写到hdfs》产生的手机型号+日期后缀的数据，此次的业务逻辑就是利用s...

2018-11-08 11:42:21 2703 2

原创 storm整合hdfs—将数据写到hdfs

最近由于业务需求，需要将数据经过storm实时处理加工之后，要转存到HDFS。小厨在实现业务之前首先写了一个测试用例，话不多说，直接上干货。。。首先介绍一下用例业务中使用的软件版本：storm 1.1.0、 hadoop 2.6.5、zookeeper3.4.10;使用maven构建项目。再简单的介绍一下测试用例业务场景：发送手机名称，即通过产生随机数的方式在数组中源源不断的选取要发送的手机信...

2018-11-06 11:09:21 3659 1

原创 ZooKeeper启动成功，却无法查看status——记一次Zookeeper“异常”

今天在使用storm时，需要启动zookeeper依赖集群。于是使用命令启动zookeeper集群，使用命令bin/zkServer.sh start[root@master bin]# ./zkServer.sh startZooKeeper JMX enabled by defaultUsing config: /usr/zookeeper/zookeeper-3.4.10/bin/...

2018-11-02 10:38:11 10737 1

原创 try catch finally的执行顺序

通过一些简单的例子来理解try catch finally的执行顺序public abstract class Test { public static void main(String[] args) { System.out.println(beforeFinally()); } public static int beforeFina...

2018-10-30 14:48:03 345

原创 KafKa在ZooKeeper上的存储结构

KafKa在ZooKeeper上的存储结构首先我们先了解一下kafka在zookeeper上的文件结构，进入一台zookeeper主机，输入命令 bin/zkCli.sh 进入交互模式，ls出zk的根目录，如下图KafKa在ZooKeeper上的文件结构这篇文章我们分析一下上图中除了zookeeper的其他文件夹对于kafka来说都是什么含义。zk-root根目录包含6个k...

2018-10-25 11:25:19 1727 1

原创 Hadoop分布式集群搭建方法（Version： java 1.8+CentOS 6.3）

夏天小厨前言大数据这个概念，说的通俗点就是对海量数据的处理分析。据不完全统计，世界百分之九十的数据都由近几年产生，且不说海量数据的ETL，单从数据的存储和数据展现的实时性，传统的单机就已经无法满足实际场景的需要例如很多OLAP系统。由此引出了Hadoop，Hadoop是一个开源框架，它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩...

2018-10-01 18:00:07 671

空空如也

空空如也