自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Meyao's Blog

愿你在迷茫时,坚信你的珍贵;爱你所爱,行你所行。听从你心,无问西东。——与君共勉。

  • 博客(27)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 Kubernetes日志收集:log-pilot+KAFKA+Logstash+ES

通过log-pilot+KAFKA+Logstash+ES收集K8S中Pod日志一、log-pilot安装apiVersion: apps/v1kind: DaemonSetmetadata: annotations: deprecated.daemonset.template.generation: '11' generation: 11 labels: ap...

2020-03-26 16:42:28 2569 9

原创 Flink程序经过reduce聚合后不输出sink的问题

Flink程序经过reduce聚合后不输出sink的问题一、最近提交的一版flink流式计算程序,经过EventTimeSessionWindows后进行了reduce聚合,完成计算完成后迟迟不sink输出结果。记录下踩过的坑程序很简单,直接上代码:StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutio...

2020-03-18 13:51:54 1899 1

原创 CentOS6安装搭建Cloudera Manager 5和CDH5(版本5.13.3)大数据集群

系统环境: 四台虚拟主机 操作系统:CentOS 6(8核,16G,512G硬盘) Cloudera Manager:5.13.3 CDH: 5.13.3192.168.1.xx bigdata1 192.168.1.xx bigdata2 192.168.1.xx bigdata3 192.168.1.xx bigdata4相关资源下载: 1.Cloudera ...

2020-03-10 13:37:31 644

原创 通过Hive外部表迁移Kudu数据表

通过Hive外部表迁移Kudu数据表由于数据量越来越大,服务器难以支撑所以迁移到云上,记录下迁移kudu表的过程1、导出数据为csv文件:`impala-shell -q "select * from vs_kudu_xxx_days" -B --output_delimiter="," -o /opt/vs_kudu_xxx_days_0131.csv2、scp csv文件到云服务器...

2019-02-27 14:38:24 5208 4

原创 Kafka指定patition消费

As everyone knows the kafka producer can send message to specific patition:producer.send(new ProducerRecord<String, String>("topic", patition,"key","value"));Now learn to recei

2018-09-07 10:04:36 1536

原创 ES分页问题及使用Scroll-Scans接口导出数据到csv

最近在对ES中大量数据做分页展示并导出一、offset大于一万的时候报错了。。。原来有一个参数:index.max_result_window控制估量一下数据量大小改大即可,此值是integer类型,不能无限大,而且但过大会影响ES查询效率:步骤: 首先关闭索引: 红线处改成索引名提交即可: { “max_result_window” : “100000000”}PU...

2018-04-20 17:26:24 1215

原创 使用ES-Hadoop插件通过Hive查询ES中的数据

本来是想既然可以通过es-hadoop插件用hive查询es的数据,为啥不能用impala来做分析呢; 结果是hive查es成功了,impala查询不了,悲剧,但还是记录一下过程中遇到的问题,特别是日期格式转换那里搞了好久。安装: 下载地址:https://www.elastic.co/cn/downloads/hadoop 找对应或高于自己es的版本即可 下载下来其实是一堆jar包...

2018-04-20 16:49:08 3670 3

原创 使用MapReduce解析HDFS中的文件生成HFile文件导入HBase(三)

使用MapReduce生成HFile文件是导入大量数据到HBase的最快方法总共分为两部分,生成HFile和导入到HBase一、生成HFile1.主程序ConvertToHFiles.javapublic class ConvertToHFiles extends Configured implements Tool { private static final L...

2018-03-23 15:17:15 2431 3

原创 流式处理新玩法,Esper和Storm的联合统计分析

自带的TwitterEsperSample.java例子好像不太好用,反正运行着没什么效果自己写一个例子总的来说就是spout模拟发送5次数据,EsperBolt接收后根据规则进行统计输出(这里是每两次计算平均值),然后最后一个bolt展示结果

2017-07-05 16:14:35 3937

原创 通过Flume拉取Kafka数据保存到ES

通过Flume拉取Kafka数据保存到ES

2017-06-08 13:52:31 4818 1

原创 通过Flume拉取Kafka数据保存到HDFS

通过Flume拉取Kafka数据保存到HDFS

2017-06-08 13:36:22 9662

原创 六台Debian主机安装搭建Cloudera Manager 5和CDH5(版本5.9.0)大数据集群

系统环境: 六台虚拟主机 操作系统:Debian 7(8核,32G,512G硬盘) Cloudera Manager:5.9.0 CDH: 5.9.0192.168.0.xx cdh1 192.168.0.xx cdh2 192.168.0.xx cdh3 192.168.0.xx cdh4 192.168.0.xx cdh5 192.168.0.xx cdh6相关资源下载: 1

2016-12-05 15:41:39 3604

原创 Hive表数据去重

一、数据全部重复

2016-08-23 17:21:41 16097

原创 通过MapReduce把Hive表数据导入到HBase

由于Hive查询速度比较慢,进行了表分区使用Impala也是很满意,所以为了公司业务展示,需要测试使用HBase的查询速度怎么样,头一件事就是把HIVE的数据导入到HBase中,搜了半天也没搜到到底该怎么搞,也有说能用Sqoop的,可是没找到资料,只好自己用MapReduce实现。话不多说,逻辑很简单,只是用了Map,直接上代码。

2016-07-13 22:37:02 3524

原创 使用JAVA API和MapReduce读取HBase里的数据(可用作HBase数据清洗)

使用JAVA API和MapReduce读取HBase里的数据

2016-06-21 14:57:41 3902

原创 使用MapReduce将Hadoop HDFS中的日志文件导入HBase中(二)

今天来记录一下由HDFS高效率导入HBase的两种导入方式。经过测试,导入时间明显减少。1.使用Map+Reduce方式 2.只使用Map的方式

2016-05-13 09:28:49 2025

原创 HBase源码分析之客户端连接发展历程

一直在找关于HBase线程池的实现方法,不过找到的资料都是之前的老版本,现在都已经被@deprecated。1.较早的版本使用的HTablePool类/** * A simple pool of HTable instances. * HTable的线程池 * * Each HTablePool acts as a pool for all tables. To use, instanti

2016-05-11 13:52:54 2127

原创 浅谈HBase系统架构

一、HBase基本架构和核心功能模块Client:客户端Client是HBase系统的入口,使用者直接通过客户端操作HBase;Client使用HBase的RPC机制与HMaster和RegionServer进行通信,对HBase 管理类操作,Client与HMaster进行RPC通信;对数据读写类操作,Client与 RegionServer进行RPC交互;Client客户端允许有多个,包括

2016-05-11 10:32:02 1213

原创 Hadoop2.*源码分析之Job任务提交与执行

写MapReduce程序创建一个Job执行时一般使用下面这个方法System.exit(job.waitForCompletion(true) ? 0 : 1);今天来分析以下Job是如何被执行的waitForCompletion方法中真正提交job的代码如下: /** * Submit the job to the cluster and wait for it to finish.

2016-05-01 23:28:52 1779

原创 使用JAVA将Hadoop HDFS中的日志文件导入HBase中(一)

开发环境硬件环境:Centos 6.5 服务器3台(一台为Master节点,两台为Slave节点) 软件环境:Java 1.7.0_71、IDEA、Hadoop-2.6.2、hbase-1.1.4一、生成日志文件假设日志文件有六列,每列之间由空格间隔 例如:aaa 20.3.111.3 bbb user nothing 2016-05-01www 22.3.201.7 ggg user no

2016-05-01 16:50:55 4051 1

原创 HBase分布式安装配置图文详解

一、准备工作首先确保已经搭建好Hadoop集群环境,可以参考之前的博文安装配置好。《Hadoop分布式集群环境搭建》HBase需要依赖Zookeeper管理,所以确保每台机器都安装配置好了Zookeeper,可以参考之前的博文(注:可视化ZKUI为选装插件)《 Zookeeper安装配置及可视化ZKUI安装配置》下载HBase安装包,这里选择了hbase-1.1.4-bin.tar.gzhba

2016-05-01 11:28:24 892

原创 Hadoop分布式集群环境搭建(三节点)

一、安装准备创建hadoop账号更改ip安装Java 更改/etc/profile 配置环境变量export $JAVA_HOME=/usr/java/jdk1.7.0_71修改host文件域名172.16.133.149 hadoop101172.16.133.150 hadoop102172.16.133.151 hadoop103 安装ssh 配置无密码登录解压hadoop/ha

2016-05-01 09:59:51 1813

原创 Zookeeper安装配置及可视化ZKUI安装配置(zookeeper3.4.6)

一、Zookeeper安装配置安装配置jdk解压Zookeeper的tar安装包修改配置文件cd /hadoop/zookeeper-3.4.6/conf/cp zoo_sample.cfg zoo.cfgvim zoo.cfg修改:dataDir=/weekend/zookeeper-3.4.5/data在最后添加:(几个Zookeeper机器就写几个~)server.1=hadoo

2016-04-17 22:07:52 2822

原创 Hive1.2.1本地、远程模式安装配置及常见错误

一、运行环境CentOS 6.5 64位jdk_1.7.0_71 64位hadoop-2.6.2mysql二、所需软件apache-hive-1.2.1-bin.tar.gz (下载地址:apache-hive-1.2.1-bin.tar.gz)mysql-connector-java-5.1.22-bin.jar三、安装配置解压apache-hive

2016-04-15 08:56:19 1371

原创 Hadoop2.6.2完全分布式集群HA模式安装配置详解

一、机器配置清单(8节点)hadoop100 节点:NameNode、DFSZKFailoverController(ZKFC)hadoop101 节点:NameNode、DFSZKFailoverController(ZKFC)hadoop102: 节点:ResourceManagerhadoop103: 节点:ResourceManagerhadoop104: 节点:Data

2016-04-13 16:15:43 7391 2

原创 Kafka安装配置及简单通道传输操作(kafka2.9.2)

Storm单机伪分布配置图文详细步骤一. Zookeeper安装配置(zookeeper3.4.6)安装配置jdk解压Zookeeper的tar安装包修改配置文件vim conf/zoo.cfg 修改配置文件中的dataDir、dataLogDir、server.1 启动zookeeper bin/zkServer.sh start启动后查看状态 bin/zkServer.sh st

2016-04-05 21:56:29 2776 2

原创 Android-记录ListView的位置,让ListView下次直接滚动到记录的位置

有时在view切换时,需要恢复listView之前滚动到的位置,记录一下自己觉得比较好用的一种方法记录listView滚动到的位置的坐标//当前可见的List顶端的一行的位置private int scrollPos = 0;//当前第一个可见的item的偏移量private int scrollTop = 0;contactList.set

2014-11-27 15:51:18 947

JAVA将HDFS中的文件导入HBase

相关博客:使用JAVA将Hadoop HDFS中的日志文件导入HBase中(一) 地址:http://blog.csdn.net/ltliyue/article/details/51290899

2016-05-01

mysql-connector-java-5.1.22-bin.jar

jdbc连接mysql jar包

2016-04-15

图的深度、广度优先遍历(c语言)

本程序方便的实现了图的深度、广度优先遍历。是数据结构中的一部分,现与大家分享

2011-12-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除