Mr-zhou-CSDN博客

原创 hadoop 自动化部署一

去年写了个python 版本的 hadoop 环境自动部署，但虎头蛇尾，再也没有心情捡起来了，将其中一部分贴在博客上，有觉得有用的，拿去用吧，尽量完善一下再次贴回来，大家共享一下吧我这个脚本基本上能完成整个环境的ssh 配置，只需要一个配置文件几次输入密码

2015-02-05 16:53:00 3769 1

原创 hadoop1.0.4升级到hadoop2.2 详细流程步骤

hadoop1 升级到hadoop2 借用别人的步骤，在时间中做了细化说明，希望对升级的玩家起到一定的辅助作用

2014-09-17 12:05:51 5371 1

原创 Hadoop学习笔记---MapReduce

1、认识MapReduce MapReduce 是一种可用于数据处理的编程模型，有一下特点: 编程模型简单，但业务实现不一定简单； Hadoop可以运行各种该语言编写的MapReduce程序，如java,python 等，很多企业为求开发效率采用python来开发MapReduce程序； MapReduce 程序是并行运行的，所以又叫批处理程序。

2014-03-24 14:45:05 3188

原创 Hadoop学习笔记二---HDFS

HDFS的概念1、数据块 HDFS跟磁盘一样也有块的概念，磁盘上块的大小一般为512字节，而文件系统的块则一般是磁盘块的整数倍，比如我当前centos块的大小事4096 也就是4K，而HDFS块的大小由参数dfs.block.size 设定默认是64M,但是与单一磁盘文件系统相似，HDFS上的文件也被分为块大小的多个分块(chunk)。为什么HDFS中的块如此之大？

2014-03-24 14:36:49 6743

原创 Hadoop学习笔记---基本概念

0、前言：不做过多介绍Hadoop 网上比比皆是，每本书买来一看，第一张都是千篇一律，本文不做过多阐述，希望将此文建立在对hadoop有些了解的基础上，本文的总体流程是，先提出一个subject，然后根据关联将相关联的概念参数一并带出，虽整体不美观，但有助于将相关知识汇总记忆。1、Hadoop 版本图: 第一个大的主线是社区版的Hadoop路线图，200

2014-03-24 14:28:43 3702

原创用大数据的思维考虑问题

什么是大数据，大数据其实是一个概念，一种思考和解决问题的方式。从次面意思上指很大很大的数据，何为很大，当你的关系型数据库、当你的文本无法承受这么多数据的时候，那数据就很大了，动辄几个T 乃至更大，我们就习惯上成为大数据。但我这里所说的大数据是一个方式，就是说不管我们数据是否真的很大很大，我们都以大数据的方式考虑问题。中国人旅游大多跟团走，那旅行社其实早就对中国人旅游的嗜好进行了判定而不是揣

2014-03-11 16:53:02 1525

原创 Hadoop 归档和HIVE 如何使用har 归档文件

初级文章，请勿喷，多提意见

2014-01-17 18:27:15 11463 2

原创 hbase 学习笔记二----shell

Hbase 是一个分布式的、面向列的开源数据库，其实现是建立在google 的bigTable 理论之上，并基于hadoop HDFS文件系统。 Hbase不同于一般的关系型数据库(RDBMS)。是一种适用于非结构化数据存储的数据库，且Hbase是基于列的数据库。下面的内容基于我们已经安装好hadoop、hbase。一、hbase shell 介绍 h

2013-10-12 16:59:35 22425

原创 hbase 学习笔记一---基本概念

说在前面,本文部分内容来源于社区官网经过适度翻译，部分根据经验总结，部分是抄袭网络博文，(不一一列举引用，在此致歉)一并列在一起，本文的目的，希望能总结出一些有用的，应该注意到的东西，基本思路是先提出一个话题，在此话题内，把相关联的东西加进去，而不是单独分出章节单独介绍，虽然条理性欠差，但有利于后期根据关键词查找。 Apache HBase 是Hadoop database的简称，h

2013-10-12 16:08:26 17607 2

原创 HBase 学习笔记三---守护进程及内存调优

1、HMaster HMaster的任务前面已经说过了，两个大方向：一、管理Hbase Table的 DDL操作二、region的分配工作，任务不是很艰巨，但是如果采用默认自动split region的方式， HMaster会稍微忙一些，负载不大，可适度对此进程做适量放大heap 的操作，但不可太大，因为更耗内存的是HRegionServer 2、HRe

2013-10-10 16:24:54 14318 2

原创 CombineFileInputFormat

package cn.mrzhou.test;import java.io.IOException;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hado

2013-08-09 11:57:02 1965

转载 hbase bug

转自:http://blog.csdn.net/chenyi8888/article/details/8646659因为对Hbase了解不多，以下碰到的问题都是很基础问题：1、运行MR程序时出现：13/03/07 14:04:58 INFO mapred.JobClient: Task Id : attempt_201303031058_0325_m_000008_0, S

2013-05-08 16:01:18 2891 2

转载 hbase操作以及维护

转自:http://www.itinit.net/thread-1322-1-1.html一，基本命令：建表：create 'table','t1','t2' 也可以建表时加coulmn的属性如：create 'table',{NAME => 't1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS

2013-04-18 11:34:17 1798

转载 INFO org.apache.hadoop.ipc.RPC: Server at /:9000 not available yet, Zzzzz

转自：http://blog.sina.com.cn/s/blog_893ee27f0100zoh7.html很多情况下遇到类似问题hadoop datanode 问题 INFO org.apache.hadoop.ipc.RPC: Server at /:9000 not available yet, Zzzzz..本以为这个样子就大功告成了，然后我用bin/hadoop

2013-04-08 14:11:09 5657

转载原码, 反码, 补码详解

看看这些是否都学过，是否经常不用都忘记了，回忆一下吧转自：http://www.cnblogs.com/zhangziqiu/archive/2011/03/30/ComputerCode.html本篇文章讲解了计算机的原码, 反码和补码. 并且进行了深入探求了为何要使用反码和补码, 以及更进一步的论证了为何可以用反码, 补码的加法计算原码的减法. 论证部分如有不对的地方

2013-03-20 10:37:19 625

转载 java中String s=”abc“及String s=new String("abc")详解

转自：http://blog.csdn.net/lubiaopan/article/details/4776000这个文章说明非常清晰首先，我们先来看一下java中变量的语义：java的变量有两种语义，原始类型的变量是值语义（value），也就是说，你给一个原始类型变量赋值，就改变了这个数据值本身。对象类型的变量是引用语义，也就是说，给一个对象类型的变量赋值只是让它指向另一

2013-03-18 16:54:16 999

原创 hive 创建外表

hive 中创建表可以用CREATE TABLE TABLE (id string,name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' //声明文件分隔符LOAD DATA LOCAL INPATH 'input/ncdc/youdata.txt' //load 数据文件路径将此文件加载到hive 的war

2013-03-18 11:11:25 31339 1

原创 hadoop archive

具体格式如下：hadoop archive -archiveName name.har -p src desthadoop archive -archiveName 20130312.har -p /flume/loginlog/20130312 loglog/这样如果mapreduce 中要指定路径的话，必须明确指定 har 文件如 hadoop jar aaa.jar

2013-03-13 11:06:09 711

原创 hive hwi 启动错误

13/03/13 09:54:20 INFO hwi.HWIServer: HWI is starting up13/03/13 09:54:20 FATAL hwi.HWIServer: HWI WAR file not found at /home/hadoop/hive-0.9.0/home/hadoopi/hive-0.9.0/lib/hive-hwi-0.9.0.war这

2013-03-13 10:32:59 2798

原创 xceiverCount 258 exceeds the limit of concurrent xcievers 256

看到这个错误，我们就首先应该想到hadoop 的配置参数dfs.datanode.max.xceivers 那这个错误到底是什么错误呢？这个错误是指hadoop上同时运行的线程数不能超过256 也就是dfs.datanode.max.xceivers 的默认值，当使用hbase的时候，这个值很容易就达到了，因为datanode 在写操作时，到文件块的每个打开的连接都会使用一个线程。所以

2013-03-04 10:08:03 2196

原创 hadoop hbase 升级

Hadoop HDFS 与Hbase升级笔记由于之前使用了hadoop1.0.2，hbase 使用的是hbase-0.92.1 但是一次事故导致元数据丢失，且修复元数据的类本身有BUG 所以摆在眼前的只有两条路：1、修改hbase源码重新编译 hbase 修复BUG 2、升级到下一个版本，且这个版本已经修复了此BUG 从release node中看到 0.92.2及以后版本均修复了

2013-03-01 15:52:32 3240

转载 MapReduce 中如何处理HBase中的数据？如何读取HBase数据给Map？如何将结果存储到HBase中？

说明：原出处我已经找不到了，请见谅MapReduce 中如何处理HBase中的数据？如何读取HBase数据给Map？如何将结果存储到HBase中？Mapper类：包括一个内部类(Context)和四个方法(setup,map,cleanup,run)； setup,cleanup用于管理Mapper生命周期中的资源。setup -> map -> cleanu

2013-03-01 10:05:54 2136

原创 hadoop 中 RPC HTTP TCP/IP 服务器的用途

hadoop 守护进程一般同时运行RPC 和HTTP两个服务器，RPC服务器支持守护进程间的通信，HTTP服务器则提供与用户交互的Web页面。需要分别为各个服务器配置网络地址和端口号。当网络地址被设为 0.0.0.0的时候，Hadoop将于本机上所有的地址绑定。用户也可以将服务器与某个指定的地址绑定。端口号为0 表示服务器会选择一个空闲的端口号：但这种做法与集群范围的防火墙策略不兼容，因为防火墙通

2013-02-19 11:58:36 2741

原创 hadoop 集群中同步配置文件

在集群配置中，经常遇到的问题：1、修改了namenode上的配置文件了，但是忘记把所有文件copy到所有的节点上，导致参数不起作用，或者根本就产生错误2、修改了namenode上的配置文件了，手动一个一个的copy到所有的节点上，如果节点较少，则问题不大，如果节点比较多，那可能问题就来了，中间是否有漏更新的，且也耽误时间基于以上两个问题，就需要用到rsync工具，当集群启动的时候，自动

2013-02-19 11:04:47 5097

原创重新　format namenode datanode无法启动

如果有需求要把namenode format的话，那就会出现上述情况如果数据还有用，那首先要保存元数据，走下面两种方式之一。如果数据是测试数据，没有也罢，可以放心删除的话那就直接走下面两种方式吧此时有两种解法1、手动删除datanode目录下的全部数据，再重新format2、将datanode下namespaceID手动修改为和namenode-->current-->VE

2013-02-18 11:28:42 1768 1

原创 Mapreduce 读取Hbase,写入hbase IO 不均衡问题

硬件环境：h46、h47、h48 三个节点 2cpu 4核共8个核心 14G 内存软件环境：三台机器分别部署hadoop、hbase 并同时作为datanode 和 tasktracker regionserver、HQuorumPeer；H46同时为Namenode、Jobtracker 和HMaster 和HQuorumPeer出现问题:跑mapreduce 时使用 iost

2013-02-04 19:19:42 1883

转载 Apache Mahout 简介

转自:http://www.ibm.com/developerworks/cn/java/j-mahout/Apache Mahout 简介通过可伸缩、商业友好的机器学习来构建智能应用程序Grant Ingersoll, 技术人员, Lucid Imagination简介：当研究院和企业能获取足够的专项研究预算之后，能从数据和用户输入中学习

2013-02-04 10:36:57 970

转载 Flume日志收集

一、Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。设计目标：(1) 可靠性当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-to-end（收到数

2013-02-04 10:29:01 8765 2

转载 Avro总结(RPC/序列化)

转自：http://langyu.iteye.com/blog/708568 Avro（读音类似于[ævrə]）是Hadoop的一个子项目，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人，膜拜）牵头开发，当前最新版本1.3.3。Avro是一个数据序列化系统，设计用于支持大批量数据交换的应用。它的主要特点有：支持二进制序列化方式，可以便捷，快速地处理

2013-01-24 13:56:18 1300

原创 FileInputFormat setInputPaths 和采用listStatus 对比

FileInputFormat.setInputPaths(job,paths) path可以给定给一个目录系统会会从该目录下找打文件作为输入，但是如果给定的目录下面还有一层目录，则系统就不会再深入一层，并且可能会提示错误：13/01/22 18:12:56 WARN mapred.LocalJobRunner: job_local_0001java.io.FileNotFoundExc

2013-01-22 18:23:23 6201

原创 org.apache.hadoop.hbase.NotServingRegionException: Region is not online 错误

当遇到如下错误的时候可能以为是regionserver 挂掉或者其他原因导致连接不上regionserver 但后面提示了Hbase 表statistic_login 具体信息Thu Jan 17 15:30:12 CST 2013, org.apache.hadoop.hbase.client.ScannerCallable@5ec136e9, org.apache.hadoop.hba

2013-01-17 15:42:21 9789 3

原创 hadoop Namenode因硬盘写满无法启动

当写元数据的分区写满，可能导致namenode挂掉从而导致及时清理出大块的空间也无法启动namenode，那此时系统namenode会报错org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.NumberFormatException: For input string:“”这是因为edit文件错误，此时执行 printf "

2013-01-16 13:09:17 3469 2

转载关于hbase的read操作的深入研究 region到storefile过程

转自:http://www.blogjava.net/hello-yun/archive/2012/07/18/383425.html这里面说的read既包括get，也包括scan，实际底层来看这两个操作也是一样的。我们将要讨论的是，当我们从一张表读取数据的时候hbase到底是怎么处理的。分二种情况来看，第一种就是表刚创建，所有put的数据还在memstore中，并没有刷新到hdfs上

2013-01-14 16:38:07 2761

转载 hbase region, store, storefile和列簇，的关系

转自:http://zhb-mccoy.iteye.com/blog/1543492 The HRegionServer opens the region and creates a corresponding HRegion object. Whenthe HRegion is opened it sets up a Store instance for each

2013-01-14 14:25:39 11743 1

原创 mapred.map.tasks 如何影响map的个数

且具体到底产生多少个分片(split) 因为多少个map 是有关系。(此处是根据新的API来分析，因为新的API 终究要调用到就得API来做具体的动作)可能会说这个值是系统根据文件大小和根据文件分片大小算出来的，那具体是如何算出来的呢，我们根据源码一步一步来分析首先Job.submit()public void submit() throws IOException, Int

2012-08-06 20:21:24 12248 4

mapred.map.tasks 如何影响map的个数

且具体到底产生多少个分片(split) 因为多少个map 是有关系。(此处是根据新的API来分析，因为新的API 终究要调用到就得API来做具体的动作)可能会说这个值是系统根据文件大小和根据文件分片大小算出来的，那具体是如何算出来的呢，我们根据源码一步一步来分析首先Job.submit()public void submit() throws IOException, Inte...

2012-08-06 20:21:00 225

原创 hbase.hregion.max.filesize 默认值到底是多少

看到不少的说明都说这个参数的默认值为256M 也就是当HStoreFile 大于这个文件时，就会split 成两个文件，这个从源码中能看到如下的内容conf.getLong("hbase.hregion.max.filesize",HConstants.DEFAULT_MAX_FILE_SIZE);而HConstants.DEFAULT_MAX_FILE_SIZE 正是 256*1024*

2012-07-27 18:18:02 9569 3

hbase.hregion.max.filesize 默认值到底是多少

看到不少的说明都说这个参数的默认值为256M 也就是当HStoreFile 大于这个文件时，就会split 成两个文件，这个从源码中能看到如下的内容conf.getLong("hbase.hregion.max.filesize",HConstants.DEFAULT_MAX_FILE_SIZE);而HConstants.DEFAULT_MAX_FILE_SIZE 正是 256*1024*...

2012-07-27 18:18:00 1005

原创 Hadoop Mapreduce优先级调度

跑三个mapreduce 分别设置优先级VERY_HIGH,HIGH,NORMAL我认为会等第一个mapreduce 完成之后才开始第二个，第三个mapreduce结果不是这样，在第一个开始执行，不再堵塞的情况下第二个、第三个就开始run了，且结束时间可能会在第二个第一个之前。

2012-07-05 10:44:28 2631

Hadoop Mapreduce优先级调度

跑三个mapreduce 分别设置优先级VERY_HIGH,HIGH,NORMAL我认为会等第一个mapreduce 完成之后才开始第二个，第三个mapreduce结果不是这样，在第一个开始执行，不再堵塞的情况下第二个、第三个就开始run了，且结束时间可能会在第二个第一个之前。...

2012-07-05 10:44:00 137

subclipse-1.8.9

Struts 开发入门与项目实战

空空如也