Meyaoo-CSDN博客

原创 Kubernetes日志收集：log-pilot+KAFKA+Logstash+ES

通过log-pilot+KAFKA+Logstash+ES收集K8S中Pod日志一、log-pilot安装apiVersion: apps/v1kind: DaemonSetmetadata: annotations: deprecated.daemonset.template.generation: '11' generation: 11 labels: ap...

2020-03-26 16:42:28 2569 9

原创 Flink程序经过reduce聚合后不输出sink的问题

Flink程序经过reduce聚合后不输出sink的问题一、最近提交的一版flink流式计算程序，经过EventTimeSessionWindows后进行了reduce聚合，完成计算完成后迟迟不sink输出结果。记录下踩过的坑程序很简单，直接上代码：StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutio...

2020-03-18 13:51:54 1899 1

原创 CentOS6安装搭建Cloudera Manager 5和CDH5(版本5.13.3)大数据集群

系统环境：四台虚拟主机操作系统：CentOS 6（8核，16G，512G硬盘） Cloudera Manager：5.13.3 CDH: 5.13.3192.168.1.xx bigdata1 192.168.1.xx bigdata2 192.168.1.xx bigdata3 192.168.1.xx bigdata4相关资源下载： 1.Cloudera ...

2020-03-10 13:37:31 644

原创通过Hive外部表迁移Kudu数据表

通过Hive外部表迁移Kudu数据表由于数据量越来越大，服务器难以支撑所以迁移到云上，记录下迁移kudu表的过程1、导出数据为csv文件：`impala-shell -q "select * from vs_kudu_xxx_days" -B --output_delimiter="," -o /opt/vs_kudu_xxx_days_0131.csv2、scp csv文件到云服务器...

2019-02-27 14:38:24 5208 4

原创 Kafka指定patition消费

As everyone knows the kafka producer can send message to specific patition：producer.send(new ProducerRecord&lt;String, String&gt;("topic", patition,"key","value"));Now learn to recei

2018-09-07 10:04:36 1536

原创 ES分页问题及使用Scroll-Scans接口导出数据到csv

最近在对ES中大量数据做分页展示并导出一、offset大于一万的时候报错了。。。原来有一个参数：index.max_result_window控制估量一下数据量大小改大即可，此值是integer类型，不能无限大，而且但过大会影响ES查询效率：步骤：首先关闭索引：红线处改成索引名提交即可： { “max_result_window” : “100000000”}PU...

2018-04-20 17:26:24 1215

原创使用ES-Hadoop插件通过Hive查询ES中的数据

本来是想既然可以通过es-hadoop插件用hive查询es的数据，为啥不能用impala来做分析呢；结果是hive查es成功了，impala查询不了，悲剧，但还是记录一下过程中遇到的问题，特别是日期格式转换那里搞了好久。安装：下载地址：https://www.elastic.co/cn/downloads/hadoop 找对应或高于自己es的版本即可下载下来其实是一堆jar包...

2018-04-20 16:49:08 3670 3

原创使用MapReduce解析HDFS中的文件生成HFile文件导入HBase（三）

使用MapReduce生成HFile文件是导入大量数据到HBase的最快方法总共分为两部分，生成HFile和导入到HBase一、生成HFile1.主程序ConvertToHFiles.javapublic class ConvertToHFiles extends Configured implements Tool { private static final L...

2018-03-23 15:17:15 2431 3

原创流式处理新玩法，Esper和Storm的联合统计分析

自带的TwitterEsperSample.java例子好像不太好用，反正运行着没什么效果自己写一个例子总的来说就是spout模拟发送5次数据，EsperBolt接收后根据规则进行统计输出（这里是每两次计算平均值），然后最后一个bolt展示结果

2017-07-05 16:14:35 3937

原创通过Flume拉取Kafka数据保存到ES

通过Flume拉取Kafka数据保存到ES

2017-06-08 13:52:31 4818 1

原创通过Flume拉取Kafka数据保存到HDFS

通过Flume拉取Kafka数据保存到HDFS

2017-06-08 13:36:22 9662

原创六台Debian主机安装搭建Cloudera Manager 5和CDH5(版本5.9.0)大数据集群

系统环境：六台虚拟主机操作系统：Debian 7（8核，32G，512G硬盘） Cloudera Manager：5.9.0 CDH: 5.9.0192.168.0.xx cdh1 192.168.0.xx cdh2 192.168.0.xx cdh3 192.168.0.xx cdh4 192.168.0.xx cdh5 192.168.0.xx cdh6相关资源下载： 1

2016-12-05 15:41:39 3604

原创 Hive表数据去重

一、数据全部重复

2016-08-23 17:21:41 16097

原创通过MapReduce把Hive表数据导入到HBase

由于Hive查询速度比较慢，进行了表分区使用Impala也是很满意，所以为了公司业务展示，需要测试使用HBase的查询速度怎么样，头一件事就是把HIVE的数据导入到HBase中，搜了半天也没搜到到底该怎么搞，也有说能用Sqoop的，可是没找到资料，只好自己用MapReduce实现。话不多说，逻辑很简单，只是用了Map，直接上代码。

2016-07-13 22:37:02 3524

原创使用JAVA API和MapReduce读取HBase里的数据(可用作HBase数据清洗)

使用JAVA API和MapReduce读取HBase里的数据

2016-06-21 14:57:41 3902

原创使用MapReduce将Hadoop HDFS中的日志文件导入HBase中（二）

今天来记录一下由HDFS高效率导入HBase的两种导入方式。经过测试，导入时间明显减少。1.使用Map+Reduce方式 2.只使用Map的方式

2016-05-13 09:28:49 2025

原创 HBase源码分析之客户端连接发展历程

一直在找关于HBase线程池的实现方法，不过找到的资料都是之前的老版本，现在都已经被@deprecated。1.较早的版本使用的HTablePool类/** * A simple pool of HTable instances. * HTable的线程池 * * Each HTablePool acts as a pool for all tables. To use, instanti

2016-05-11 13:52:54 2127

原创浅谈HBase系统架构

一、HBase基本架构和核心功能模块Client：客户端Client是HBase系统的入口，使用者直接通过客户端操作HBase；Client使用HBase的RPC机制与HMaster和RegionServer进行通信，对HBase 管理类操作，Client与HMaster进行RPC通信;对数据读写类操作，Client与 RegionServer进行RPC交互；Client客户端允许有多个，包括

2016-05-11 10:32:02 1213

原创 Hadoop2.*源码分析之Job任务提交与执行

写MapReduce程序创建一个Job执行时一般使用下面这个方法System.exit(job.waitForCompletion(true) ? 0 : 1);今天来分析以下Job是如何被执行的waitForCompletion方法中真正提交job的代码如下： /** * Submit the job to the cluster and wait for it to finish.

2016-05-01 23:28:52 1779

原创使用JAVA将Hadoop HDFS中的日志文件导入HBase中（一）

开发环境硬件环境：Centos 6.5 服务器3台（一台为Master节点，两台为Slave节点）软件环境：Java 1.7.0_71、IDEA、Hadoop-2.6.2、hbase-1.1.4一、生成日志文件假设日志文件有六列，每列之间由空格间隔例如：aaa 20.3.111.3 bbb user nothing 2016-05-01www 22.3.201.7 ggg user no

2016-05-01 16:50:55 4051 1

原创 HBase分布式安装配置图文详解

一、准备工作首先确保已经搭建好Hadoop集群环境，可以参考之前的博文安装配置好。《Hadoop分布式集群环境搭建》HBase需要依赖Zookeeper管理，所以确保每台机器都安装配置好了Zookeeper，可以参考之前的博文（注：可视化ZKUI为选装插件）《 Zookeeper安装配置及可视化ZKUI安装配置》下载HBase安装包，这里选择了hbase-1.1.4-bin.tar.gzhba

2016-05-01 11:28:24 892

原创 Hadoop分布式集群环境搭建（三节点）

一、安装准备创建hadoop账号更改ip安装Java 更改/etc/profile 配置环境变量export $JAVA_HOME=/usr/java/jdk1.7.0_71修改host文件域名172.16.133.149 hadoop101172.16.133.150 hadoop102172.16.133.151 hadoop103 安装ssh 配置无密码登录解压hadoop/ha

2016-05-01 09:59:51 1813

原创 Zookeeper安装配置及可视化ZKUI安装配置（zookeeper3.4.6）

一、Zookeeper安装配置安装配置jdk解压Zookeeper的tar安装包修改配置文件cd /hadoop/zookeeper-3.4.6/conf/cp zoo_sample.cfg zoo.cfgvim zoo.cfg修改：dataDir=/weekend/zookeeper-3.4.5/data在最后添加：（几个Zookeeper机器就写几个~）server.1=hadoo

2016-04-17 22:07:52 2822

原创 Hive1.2.1本地、远程模式安装配置及常见错误

一、运行环境CentOS 6.5 64位jdk_1.7.0_71 64位hadoop-2.6.2mysql二、所需软件apache-hive-1.2.1-bin.tar.gz （下载地址：apache-hive-1.2.1-bin.tar.gz）mysql-connector-java-5.1.22-bin.jar三、安装配置解压apache-hive

2016-04-15 08:56:19 1371

原创 Hadoop2.6.2完全分布式集群HA模式安装配置详解

一、机器配置清单(8节点)hadoop100 节点：NameNode、DFSZKFailoverController(ZKFC)hadoop101 节点：NameNode、DFSZKFailoverController(ZKFC)hadoop102: 节点：ResourceManagerhadoop103: 节点：ResourceManagerhadoop104: 节点：Data

2016-04-13 16:15:43 7391 2

原创 Kafka安装配置及简单通道传输操作（kafka2.9.2）

Storm单机伪分布配置图文详细步骤一. Zookeeper安装配置（zookeeper3.4.6）安装配置jdk解压Zookeeper的tar安装包修改配置文件vim conf/zoo.cfg 修改配置文件中的dataDir、dataLogDir、server.1 启动zookeeper bin/zkServer.sh start启动后查看状态 bin/zkServer.sh st

2016-04-05 21:56:29 2776 2

原创 Android-记录ListView的位置，让ListView下次直接滚动到记录的位置

有时在view切换时，需要恢复listView之前滚动到的位置，记录一下自己觉得比较好用的一种方法记录listView滚动到的位置的坐标//当前可见的List顶端的一行的位置private int scrollPos = 0;//当前第一个可见的item的偏移量private int scrollTop = 0;contactList.set

2014-11-27 15:51:18 947

JAVA将HDFS中的文件导入HBase

相关博客：使用JAVA将Hadoop HDFS中的日志文件导入HBase中（一）地址：http://blog.csdn.net/ltliyue/article/details/51290899

2016-05-01

mysql-connector-java-5.1.22-bin.jar

jdbc连接mysql jar包

2016-04-15

图的深度、广度优先遍历（c语言）

本程序方便的实现了图的深度、广度优先遍历。是数据结构中的一部分，现与大家分享

2011-12-20

httpclient4.5访问网页时报Cookie rejected

2016-06-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人