琳琳庚主LoveU-CSDN博客

原创 kafka一之配置文件说明

broker.id =0每一个broker在集群中的唯一表示，要求是正数。当该服务器的IP地址发生改变时，broker.id没有变化，则不会影响consumers的消息情况,最大值为255log.dirs=/data/kafka-logskafka数据的存放地址，多个地址的话用逗号分割,多个目录分布在不同磁盘上可以提高读写性能 /data/kafka-l

2017-01-17 17:37:47 699

翻译 storm七之storm java示例

通过前面6个章节，我们大致了解apache storm的核心细节了，现在我们开始写一些简单的代码，来感受下storm的魅力。场景——移动呼叫日志分析移动电话呼叫号及其持续时间将作为Apache stormd的输入流,storm将根据拨号方和接收方之间的电话号码以及通话次数进行分组。 Spout CreationSpout是storm用于数据生成的一个组件,。通常

2017-01-16 22:02:16 5683

翻译 Storm六之storm安装

我们现在来看看如何在自己的机器上安装storm。主要分为三步：1.安装java环境2.安装zookeeper环境3.安装storm 步骤1和2省略，不会请自行百度。下面开始安装storm的步骤(此时java和zookeeper需要先装好):1.下载storm的tar文件(apache官网上自行下载)2.解压tar文件$tar -zvxf apache-sto

2017-01-16 14:06:38 614

翻译 Storm五之分布式消息系统

Storm实时处理的数据流通常来自消息队列系统，外部独立的分布式消息系统将为实时数据处理系统提供输入流。Storm Spout会从消息系统读取数据,经过处理后将其转换为tuple，然后再传入storm系统。有趣的是，storm使用自己内部的分布式消息系统进行nimbus和supervisor之间的通信。什么是分布式消息系统？分布式消息系统是基于可靠的消息队列，消息由客户机

2017-01-16 13:47:54 486

翻译 storm四之storm的工作流程

一个正常运行的Storm集群应该有一个nimbus和一个或多个supervisor。还有另一个重要的节点是Apache zookeeper,用于nimbus和supervisor之间的协调。现在让我们来仔细看看Apache Storm的工作流： 1.最初,nimbus等待topology提交2.一旦提交了topology,nimbus将处理topology来收集所有的执行任务和

2017-01-15 21:30:37 2314

One of the main highlight of the Apache Storm is that it is a fault-tolerant, fast with no “Single Point of Failure” (SPOF) distributed application. We can install Apache Storm in as many systems as n

2017-01-15 20:50:22 908

翻译 storm二之storm核心概念

Apache storm——核心概念Apache Storm reads raw stream of real-time data from one end and passes it through a sequence of small processing units and output the processed / useful information at the other e

2017-01-14 23:48:38 702

翻译 storm一之storm是什么

Apache storm是什么?Apache storm是一个分布式实时大数据处理系统。storm的目的是提供容错和水平可伸缩扩展的方式处理大量数据。storm是一个高吞吐率流数据处理框架。虽然storm是无状态的,它通过Apache zookeeper管理分布式环境和集群状态。storm很简单，可以对实时数据并行的进行各种各样的操作。 Apache storm是实时数据分析领域是领跑

2017-01-14 23:36:12 1392

原创 hive select join

JOIN是子句用于通过使用共同值组合来自两个表特定字段。它是用来从数据库中的两个或更多的表组合的记录。它或多或少类似于SQL JOIN。语法join_table: table_reference JOIN table_factor [join_condition] | table_reference{LEFT|RIGHT|FULL} [OUTER] JOIN

2017-01-14 09:55:25 650

原创 hive group by

本章介绍了SELECT语句的GROUP BY子句。GROUP BY子句用于分类所有记录结果的特定集合列。它被用来查询一组记录。语法GROUP BY子句的语法如下：SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP B

2017-01-14 09:52:23 489

原创 hiveQL Select Order By

本章介绍了如何使用SELECT语句的ORDER BY子句。ORDER BY子句用于检索基于一列的细节并设置排序结果按升序或降序排列。语法下面给出的是ORDER BY子句的语法：SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [

2017-01-14 09:49:21 381

原创 hive select where

Hive查询语言(HiveQL)是一种查询语言,Hive处理在Metastore分析结构化数据。本章介绍了如何使用SELECT语句的WHERE子句。SELECT语句用来从表中检索的数据。 WHERE子句中的工作原理类似于一个条件。它使用这个条件过滤数据，并返回给出一个有限的结果。内置运算符和函数产生一个表达式，满足以下条件。语法下面给出的是SELECT查询的语法：SELECT [A

2017-01-14 09:46:20 3321

原创 hive视图和索引

本章介绍如何创建和管理视图。根据用户的需求创建视图。可以将任何结果集数据保存为一个视图。视图在Hive的用法和SQL视图用法相同。它是一个标准的RDBMS概念。我们可以在视图上执行所有DML操作。创建一个视图可以创建一个视图，在执行SELECT语句的时候。语法如下：CREATE VIEW [IF NOT EXISTS] view_name [(column_name [COMMEN

2017-01-14 09:38:53 510

原创 hive内置函数

之前关于hive的章节，都是在阿三的网站上翻译过来，昨天在查资料的时候，发现国内有网站已经翻译好了。好吧，不过还得把文章补全,就当作练练英语了。本节介绍了在Hive中可用的内置函数。这些函数看起来非常类似于SQL的函数，除了他们的使用有点不一样。内置函数Hive支持以下内置函数示例以下查询演示了一些内置函数：round() 函数hiv

2017-01-14 09:31:14 648

原创 hive中内置操作符

本文介绍hive的内置操作。Hive共有四种内置操作，如下：1.Relational Operators 关系运算符2.Arithmetic Operators 算术运算符3.Logical Operators 逻辑运算符4.Complex Operators 复杂的操作 Relational Operators 关系运算符关系运算符被用来比较两个操作数。下表描述了

2017-01-08 22:58:12 424

原创 hive表分区

Hive对表有分区的功能。Hive根据表的列属性值,诸如日期,城市,部门对表进行分区,使用分区,能够很容易查询到数据的一部分。表或分区被分为buckets(桶),以便为数据提供额外的数据结构,该数据结构被用于提升查询的有效性。buckets(桶)的工作依赖于表中某个列的哈希函数值。例如,一个名为Tab1的表包含员工的信息,如id、名称、部门和yoj(即加入年份)。假设您需要检索所有

2017-01-08 22:25:40 406

原创 hive中表结构修改，表删除

Hive中对表修改，删除。本章介绍如何改变表的属性,如改变表名称,改变列名称,添加列,删除或替换列。 Alter Table StatementAlter Table语法：重命名表名ALTER TABLE name RENAME TO new_name例子：hive> ALTER TABLE employee RENAME TO emp; 添加新列ALTER

2017-01-08 21:46:45 25923 6

原创 hive中表的创建以及数据的加载

本文介绍何如在hive中创建表以及加载数据建表语法：CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][ROW FORMAT row_

2017-01-08 18:53:32 808

原创 hive中数据库的创建与删除

Hive安装完并初始化元数据后,会自动产生一个默认的数据库default.但在时间的生产环境中,我们通常要创建自己的数据库.文本介绍如何通过hive客户端和java程序创建和删除hive数据库。创建数据库：在hive中创建数据库，和在关系型数据库中创建数据库类似,用create database 语句创建数据库。Hive中的数据库，实际上是一个命名空间namespac

2017-01-08 18:10:16 19702

原创 hive中的数据类型

本文将介绍hive中创建表时涉及的不同的数据类型。Hive中的数据类型分为以下四种：Column Types列类型Literals文字Null Values空值Complex Types复杂类型 Column Types列类型Column Types作为hive列数据类型。他们如下:Integral Types:整数类型,分以下4种：长整型BIGINT(eg

2017-01-08 17:38:49 783

原创 hive体系结构和执行流程

HIVE是什么？Hive是hadoop上处理结构化数据的数据仓库基础工具，用来处理存储在hadoop上的海量数据,使用hive可以使查询和分析变得更简单。Hive起初是有facebook开发,后来贡献给apache基金会的，apache对它做了进一步的开发并开源。 Hive不合适做哪些事情？1.hive不是一个关系型数据库2.Hive不适合做为在线事务处理(OLTP)的系统

2017-01-08 16:24:38 2649

原创 thymeleaf循环遍历

th:each属性用于迭代循环，语法：th:each="obj,iterStat:${objList}"迭代对象可以是Java.util.List,java.util.Map,数组等;iterStat称作状态变量，属性有： index:当前迭代对象的index（从0开始计算） count: 当前迭代对象的index(从1开始计算) size:被迭代对象

2017-01-06 15:37:42 25591 2

原创 java中请求响应时间监控

对多渠道的请求中,有时候需要控制请求的响应时间，在java JDK1.5后，提供的并发包java.util.concurrent为此提供了响应的解决办法。jdk1.5自带的并发库中Future类就能满足这个需求。Future类中重要方法包括get()和cancel()。get()获取数据对象，如果数据没有加载，就会阻塞直到取到数据，而 cancel()是取消数据加载。另外一个g

2017-01-04 13:06:08 8472

原创 springboot计划任务(定时任务)

从spring3.1开始，计划任务在spring中变得异常简单。具体操作：1.在配置类上添加@EnableScheduling注解来开启对计划任务（定时任务）的支持2.在执行方法上添加@Scheduled,声明该方法是一个计划任务（定时任务）另：@Scheduled支持多种类型的计划任务，包含cron，fixDelay，fixRate等。demo：@Schedule

2017-01-04 12:01:55 1082

原创 springboot多线程编程

spring通过任务执行器TaskExecutor来实现多线程和并发编程。使用ThreadPoolTaskExecutor可实现一个基于线程池的TaskExecutor。而实际开发中任务一般是非阻塞的，即异步的，所以我们要在配置类中通过@EnableAsync注解来开启对异步任务的支持,并通过在实际执行的bean的方法中使用@Async注解来声明其是一个异步任务。具体操作：

2017-01-04 12:00:58 10106

原创 Avro Source配置详解

监听Avro端口和从外部Avro端接收事件流。当在另一个(上一个)Flume agent搭配内置Avro sink,它可以创建分层集合拓扑。以下为source配置时一些属性配置信息。channels： source指定channels,可以是多个,即fan-out,用空格分割type：组件类型名称,固定为 avrobind：监听的主机名称或者IP地址port：绑定监听的

2016-12-18 22:20:57 1958

原创 flume七：Flume Interceptors介绍

flume默认提供以下Interceptors：Timestamp Interceptor：a1.sources = r1a1.channels = c1a1.sources.r1.channels = c1a1.sources.r1.type = seqa1.sources.r1.interceptors = i1a1.sources.r1.interceptors

2016-12-18 21:16:43 366

原创 flume六：Event Serializers介绍

flume默认提供以下 Serializers：Body Text Serializer：a1.sinks = k1a1.sinks.k1.type = file_rolla1.sinks.k1.channel = c1a1.sinks.k1.sink.directory = /var/log/flumea1.sinks.k1.sink.serializer = text

2016-12-18 21:15:35 1590

原创 flume五：flume Processors介绍

目前flume支持default, failover or load_balance三种Processors。Failover Sink Processor：a1.sinkgroups = g1a1.sinkgroups.g1.sinks = k1 k2a1.sinkgroups.g1.processor.type = failovera1.sinkgroups.g1.

2016-12-18 21:14:55 365

原创 flume四：flume sink介绍

flume默认提供了以下sink：HDFS Sink：a1.channels = c1a1.sinks = k1a1.sinks.k1.type = hdfsa1.sinks.k1.channel = c1a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/%Sa1.sinks.k1.hdfs.filePref

2016-12-18 21:14:24 1247

原创 flume三：flume Channel selector介绍

flume默认提供以下Selectors：Replicating Channel Selectora1.sources = r1a1.channels = c1 c2 c3a1.sources.r1.selector.type = replicatinga1.sources.r1.channels = c1 c2 c3a1.sources.r1.selector.opt

2016-12-18 21:13:32 812

原创 flume二：flume Channel介绍

flume默认提供了以下channel：Memory Channel：a1.channels = c1a1.channels.c1.type = memorya1.channels.c1.capacity = 10000a1.channels.c1.transactionCapacity = 10000a1.channels.c1.byteCapacityBufferPer

2016-12-18 21:12:48 558

原创 flume一：flumeSource介绍

flume介绍首先,flume是一个分布式、可靠和可用的系统,

2016-12-17 20:31:19 954

原创 redis二：配置文件个参数解析

参数说明redis.conf 配置项说明如下：1. Redis默认不是以守护进程的方式运行，可以通过该配置项修改，使用yes启用守护进程 daemonize no2. 当Redis以守护进程方式运行时，Redis默认会把pid写入/var/run/redis.pid文件，可以通过pidfile指定 pidfile /var/run/redis.p

2016-12-16 23:11:03 286

原创 redis一：安装以及常见操作

redis安装：1.tar -zxvf 文件名：解压文件2.cd redis_version:进入到redis目录3.make:编译redis4.cd src:进入到src目录下5.make install6. ./redis-server /home/lichangwu/redis-2.8.17/redis.conf:启动服务器7. ./redis-cli：启动客

2016-12-16 22:18:02 380

原创 hive安装

Hive只在一个节点上安装即可1.上传tar包 2.解压tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.配置mysql metastore（切换到root用户）配置HIVE_HOME环境变量rpm -qa | grep mysqlrpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodepsrpm

2016-11-25 23:50:35 388 1

原创 hbase集群搭建

1.上传hbase安装包2.解压3.配置hbase集群，要修改3个文件（首先zk集群已经安装好了）注意：要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下3.1修改hbase-env.shexport JAVA_HOME=/usr/local/bigdata/jdk1.7.0_79//告诉hbase使用外部的zk

2016-11-25 14:22:37 398

原创 sqoop简单使用

sqoop安装：安装在一台节点上就可以了。1.上传sqoop2.安装和配置2.1 添加sqoop到环境变量2.2 将数据库连接驱动拷贝到$SQOOP_HOME/lib里2.3 如果启动时报找不到apache......sqoop.Sqoop类,检查$SQOOP_HOME/lib下是否有sqoop-x.x.x.jar，若没有，将根目录下的sqoop-x.x.x

2016-11-23 17:56:22 319

原创 sqoop1.4.6使用配置

1.上传jar2.解压 tar -zvxf sqoop-1.4.6.bin__hadoop-0.23.tar.gz3.在conf目录下： cp sqoop-env-template.sh sqoop-env.sh 并配置相关参数即可4.将mysql-connector -java-X.X.XX.jar 拷贝到lib下。5.如果

2016-11-23 15:36:12 350

原创 springboot 后台启动

直接启动：java -jar crawler_batch-0.0.1-SNAPSHOT.jar这样的问题：启动窗口关掉时,springboot服务同时也关掉了java -jar crawler_batch-0.0.1-SNAPSHOT.jar > log.file 2>&1 &后台启动ps aux | grep spring | xargs kill -9

2016-11-23 13:22:30 2373

storm入门教程

storm入门资料

hive apache教程译文

hadoop集群，hdfs dfs -ls / 目录出错