自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 资源 (2)
  • 收藏
  • 关注

原创 hadoop 自动化部署 一

去年写了个python 版本的 hadoop 环境自动部署,但虎头蛇尾,再也没有心情捡起来了,将其中一部分贴在博客上,有觉得有用的,拿去用吧,尽量完善一下 再次贴回来,大家共享一下 吧我这个脚本基本上能完成 整个环境的ssh 配置,只需要一个配置文件几次输入密码

2015-02-05 16:53:00 3769 1

原创 hadoop1.0.4升级到hadoop2.2 详细流程步骤

hadoop1 升级到hadoop2 借用别人的步骤,在时间中做了细化说明,希望对升级的玩家起到一定的辅助作用

2014-09-17 12:05:51 5371 1

原创 Hadoop学习笔记---MapReduce

1、认识MapReduce     MapReduce 是一种可用于数据处理的编程模型,有一下特点:     编程模型简单,但业务实现不一定简单;     Hadoop可以运行各种该语言编写的MapReduce程序,如java,python 等,很多企业为求开发效率采用python来开发MapReduce程序;     MapReduce 程序是并行运行的,所以又叫批处理程序。

2014-03-24 14:45:05 3188

原创 Hadoop学习笔记二---HDFS

HDFS的概念1、数据块     HDFS跟磁盘一样也有块的概念,磁盘上块的大小一般为512字节,而文件系统的块则一般是磁盘块的整数倍,比如我当前centos块的大小事4096 也就是4K,而HDFS块的大小由参数dfs.block.size 设定默认是64M,但是与单一磁盘文件系统相似,HDFS上的文件也被分为块大小的多个分块(chunk)。     为什么HDFS中的块如此之大?

2014-03-24 14:36:49 6743

原创 Hadoop学习笔记---基本概念

0、前言:     不做过多介绍Hadoop 网上比比皆是,每本书买来一看,第一张都是千篇一律,本文不做过多阐述,希望将此文建立在对hadoop有些了解的基础上,本文的总体流程是,先提出一个subject,然后根据关联将相关联的概念参数一并带出,虽整体不美观,但有助于将相关知识汇总记忆。1、Hadoop 版本图:          第一个大的主线是社区版的Hadoop路线图,200

2014-03-24 14:28:43 3702

原创 用大数据的思维考虑问题

什么是大数据,大数据其实是一个概念,一种思考和解决问题的方式。从次面意思上指很大很大的数据,何为很大,当你的关系型数据库、当你的文本无法承受这么多数据的时候,那数据就很大了,动辄几个T 乃至更大,我们就习惯上成为大数据。但我这里所说的大数据是一个方式,就是说不管我们数据是否真的很大很大,我们都以大数据的方式考虑问题。中国人旅游大多跟团走,那旅行社其实早就对中国人旅游的嗜好进行了判定而不是揣

2014-03-11 16:53:02 1525

原创 Hadoop 归档 和HIVE 如何使用har 归档 文件

初级文章,请勿喷,多提意见

2014-01-17 18:27:15 11463 2

原创 hbase 学习笔记二----shell

Hbase 是一个分布式的、面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统。     Hbase不同于一般的关系型数据库(RDBMS)。是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库。     下面的内容基于我们已经安装好hadoop、hbase。    一、hbase shell 介绍     h

2013-10-12 16:59:35 22425

原创 hbase 学习笔记一---基本概念

说在前面,本文部分内容来源于社区官网经过适度翻译,部分根据经验总结,部分是抄袭网络博文,(不一一列举引用,在此致歉)一并列在一起,本文的目的,希望能总结出一些有用的,应该注意到的东西,基本思路是先提出一个话题,在此话题内,把相关联的东西加进去,而不是单独分出章节单独介绍,虽然条理性欠差,但有利于后期根据关键词查找。    Apache HBase 是Hadoop database的简称,h

2013-10-12 16:08:26 17607 2

原创 HBase 学习笔记三---守护进程及内存调优

1、HMaster          HMaster的任务前面已经说过了,两个大方向:一、管理Hbase Table的 DDL操作 二、region的分配工作,任务不是很艰巨,但是如果采用默认自动split region的方式,     HMaster会稍微忙一些,负载不大,可适度对此进程做适量放大heap 的操作,但不可太大,因为更耗内存的是HRegionServer     2、HRe

2013-10-10 16:24:54 14318 2

原创 CombineFileInputFormat

package cn.mrzhou.test;import java.io.IOException;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hado

2013-08-09 11:57:02 1965

转载 hbase bug

转自:http://blog.csdn.net/chenyi8888/article/details/8646659因为对Hbase了解不多,以下碰到的问题都是很基础问题:1、运行MR程序时出现:13/03/07 14:04:58 INFO mapred.JobClient: Task Id : attempt_201303031058_0325_m_000008_0, S

2013-05-08 16:01:18 2891 2

转载 hbase操作以及维护

转自:http://www.itinit.net/thread-1322-1-1.html一,基本命令:    建表:create 'table','t1','t2'     也可以建表时加coulmn的属性如:create 'table',{NAME => 't1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS

2013-04-18 11:34:17 1798

转载 INFO org.apache.hadoop.ipc.RPC: Server at /:9000 not available yet, Zzzzz

转自:http://blog.sina.com.cn/s/blog_893ee27f0100zoh7.html很多情况下遇到类似问题hadoop datanode 问题 INFO org.apache.hadoop.ipc.RPC: Server at /:9000 not available yet, Zzzzz..本以为这个样子就大功告成了,然后我用bin/hadoop

2013-04-08 14:11:09 5657

转载 原码, 反码, 补码 详解

看看这些 是否都学过,是否经常不用都忘记了,回忆一下吧转自:http://www.cnblogs.com/zhangziqiu/archive/2011/03/30/ComputerCode.html本篇文章讲解了计算机的原码, 反码和补码. 并且进行了深入探求了为何要使用反码和补码, 以及更进一步的论证了为何可以用反码, 补码的加法计算原码的减法. 论证部分如有不对的地方

2013-03-20 10:37:19 625

转载 java中String s=”abc“及String s=new String("abc")详解

转自:http://blog.csdn.net/lubiaopan/article/details/4776000这个文章说明非常清晰首先,我们先来看一下java中变量的语义:java的变量有两种语义,原始类型的变量是值语义(value),也就是说,你给一个原始类型变量赋值,就改变了这个数据值本身。对象类型的变量是引用语义,也就是说,给一个对象类型的变量赋值只是让它指向另一

2013-03-18 16:54:16 999

原创 hive 创建外表

hive 中 创建表 可以用CREATE TABLE TABLE (id string,name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY  '\t'  //声明文件分隔符LOAD DATA LOCAL INPATH 'input/ncdc/youdata.txt' //load 数据文件路径 将此文件 加载到hive 的war

2013-03-18 11:11:25 31339 1

原创 hadoop archive

具体格式如下:hadoop archive -archiveName name.har -p src desthadoop  archive -archiveName 20130312.har -p /flume/loginlog/20130312 loglog/这样如果mapreduce 中要指定路径的话,必须明确指定 har 文件如 hadoop jar aaa.jar

2013-03-13 11:06:09 711

原创 hive hwi 启动错误

13/03/13 09:54:20 INFO hwi.HWIServer: HWI is starting up13/03/13 09:54:20 FATAL hwi.HWIServer: HWI WAR file not found at /home/hadoop/hive-0.9.0/home/hadoopi/hive-0.9.0/lib/hive-hwi-0.9.0.war这

2013-03-13 10:32:59 2798

原创 xceiverCount 258 exceeds the limit of concurrent xcievers 256

看到这个错误,我们就首先应该想到hadoop 的配置参数dfs.datanode.max.xceivers 那这个错误到底是什么错误呢?这个错误是指hadoop上同时运行的线程数不能超过256 也就是dfs.datanode.max.xceivers 的默认值,当使用hbase的时候,这个值很容易就达到了,因为datanode 在写操作时,到文件块的每个打开的连接都会使用一个线程。所以

2013-03-04 10:08:03 2196

原创 hadoop hbase 升级

Hadoop HDFS 与Hbase升级笔记由于之前使用了hadoop1.0.2,hbase 使用的是hbase-0.92.1 但是一次事故导致元数据丢失,且修复元数据的类本身有BUG 所以摆在眼前的只有两条路:1、修改hbase源码重新编译 hbase 修复BUG 2、升级到下一个版本,且这个版本已经修复了此BUG 从release node中看到 0.92.2及以后版本均修复了

2013-03-01 15:52:32 3240

转载 MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中?

说明:原出处我已经找不到了,请见谅MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中?Mapper类:包括一个内部类(Context)和四个方法(setup,map,cleanup,run);          setup,cleanup用于管理Mapper生命周期中的资源。setup -> map -> cleanu

2013-03-01 10:05:54 2136

原创 hadoop 中 RPC HTTP TCP/IP 服务器的用途

hadoop 守护进程一般同时运行RPC 和HTTP两个服务器,RPC服务器支持守护进程间的通信,HTTP服务器则提供与用户交互的Web页面。需要分别为各个服务器配置网络地址和端口号。当网络地址被设为 0.0.0.0的时候,Hadoop将于本机上所有的地址绑定。用户也可以将服务器与某个指定的地址绑定。端口号为0 表示服务器会选择一个空闲的端口号:但这种做法与集群范围的防火墙策略不兼容,因为防火墙通

2013-02-19 11:58:36 2741

原创 hadoop 集群中 同步配置文件

在集群配置中,经常遇到的问题:1、修改了namenode上的配置文件了,但是忘记把所有文件copy到所有的节点上,导致参数不起作用,或者根本就产生错误2、修改了namenode上的配置文件了,手动一个一个的copy到所有的节点上,如果节点较少,则问题不大,如果节点比较多,那可能问题就来了,中间是否有漏更新的,且也耽误时间基于以上两个问题,就需要用到rsync工具,当集群启动的时候,自动

2013-02-19 11:04:47 5097

原创 重新 format namenode datanode无法启动

如果有需求要把namenode format的话,那就会出现上述情况如果数据还有用,那首先要保存元数据,走下面两种方式之一。如果数据是测试数据,没有也罢,可以放心删除的话那就直接走下面两种方式吧此时有两种解法1、手动删除datanode目录下的全部数据,再重新format2、将datanode下namespaceID手动修改为和namenode-->current-->VE

2013-02-18 11:28:42 1768 1

原创 Mapreduce 读取Hbase,写入hbase IO 不均衡问题

硬件环境:h46、h47、h48 三个节点 2cpu 4核 共8个核心 14G 内存软件环境:三台机器分别部署hadoop、hbase 并同时作为datanode 和 tasktracker regionserver、HQuorumPeer;H46同时为Namenode、Jobtracker 和HMaster 和HQuorumPeer出现问题:跑mapreduce 时使用 iost

2013-02-04 19:19:42 1883

转载 Apache Mahout 简介

转自:http://www.ibm.com/developerworks/cn/java/j-mahout/Apache Mahout 简介通过可伸缩、商业友好的机器学习来构建智能应用程序Grant Ingersoll, 技术人员, Lucid Imagination简介: 当研究院和企业能获取足够的专项研究预算之后,能从数据和用户输入中学习

2013-02-04 10:36:57 970

转载 Flume日志收集

一、Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数

2013-02-04 10:29:01 8765 2

转载 Avro总结(RPC/序列化)

转自:http://langyu.iteye.com/blog/708568  Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发,当前最新版本1.3.3。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理

2013-01-24 13:56:18 1300

原创 FileInputFormat setInputPaths 和 采用listStatus 对比

FileInputFormat.setInputPaths(job,paths) path可以给定给一个目录 系统会会从该目录下找打文件作为输入,但是如果给定的目录下面还有一层目录,则系统就不会再深入一层,并且可能会提示错误:13/01/22 18:12:56 WARN mapred.LocalJobRunner: job_local_0001java.io.FileNotFoundExc

2013-01-22 18:23:23 6201

原创 org.apache.hadoop.hbase.NotServingRegionException: Region is not online 错误

当遇到如下错误的时候 可能以为是regionserver 挂掉或者其他原因导致连接不上regionserver  但后面提示了Hbase 表statistic_login 具体信息Thu Jan 17 15:30:12 CST 2013, org.apache.hadoop.hbase.client.ScannerCallable@5ec136e9, org.apache.hadoop.hba

2013-01-17 15:42:21 9789 3

原创 hadoop Namenode因硬盘写满无法启动

当写元数据的分区写满,可能导致namenode挂掉从而导致及时清理出大块的空间也无法启动namenode,那此时系统namenode会报错org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.NumberFormatException: For input string:“”这是因为edit文件错误,此时执行 printf "

2013-01-16 13:09:17 3469 2

转载 关于hbase的read操作的深入研究 region到storefile过程

转自:http://www.blogjava.net/hello-yun/archive/2012/07/18/383425.html这里面说的read既包括get,也包括scan,实际底层来看这两个操作也是一样的。我们将要讨论的是,当我们从一张表读取数据的时候hbase到底是怎么处理的。分二种情况来看,第一种就是表刚创建,所有put的数据还在memstore中,并没有刷新到hdfs上

2013-01-14 16:38:07 2761

转载 hbase region, store, storefile和列簇,的关系

转自:http://zhb-mccoy.iteye.com/blog/1543492 The HRegionServer opens the region and creates a corresponding HRegion object. Whenthe HRegion is opened it sets up a Store instance for each

2013-01-14 14:25:39 11743 1

原创 mapred.map.tasks 如何影响map的个数

且具体到底产生多少个分片(split)  因为多少个map 是有关系。(此处是根据新的API来分析,因为新的API 终究要调用到就得API来做具体的动作)可能会说这个值 是系统根据文件大小 和根据文件分片大小 算出来的,那具体是如何算出来的呢,我们根据源码 一步一步来分析首先Job.submit()public void submit() throws IOException, Int

2012-08-06 20:21:24 12248 4

mapred.map.tasks 如何影响map的个数

且具体到底产生多少个分片(split) 因为多少个map 是有关系。(此处是根据新的API来分析,因为新的API 终究要调用到就得API来做具体的动作)可能会说这个值 是系统根据文件大小 和根据文件分片大小 算出来的,那具体是如何算出来的呢,我们根据源码 一步一步来分析首先Job.submit()public void submit() throws IOException, Inte...

2012-08-06 20:21:00 225

原创 hbase.hregion.max.filesize 默认值 到底是多少

看到不少的说明都说这个参数的默认值为256M 也就是当HStoreFile 大于这个文件时,就会split 成两个文件,这个从源码中能看到如下的内容conf.getLong("hbase.hregion.max.filesize",HConstants.DEFAULT_MAX_FILE_SIZE);而HConstants.DEFAULT_MAX_FILE_SIZE 正是 256*1024*

2012-07-27 18:18:02 9569 3

hbase.hregion.max.filesize 默认值 到底是多少

看到不少的说明都说这个参数的默认值为256M 也就是当HStoreFile 大于这个文件时,就会split 成两个文件,这个从源码中能看到如下的内容conf.getLong("hbase.hregion.max.filesize",HConstants.DEFAULT_MAX_FILE_SIZE);而HConstants.DEFAULT_MAX_FILE_SIZE 正是 256*1024*...

2012-07-27 18:18:00 1005

原创 Hadoop Mapreduce优先级调度

跑三个mapreduce 分别设置优先级VERY_HIGH,HIGH,NORMAL我认为 会等第一个mapreduce 完成之后 才开始第二个,第三个mapreduce结果不是这样,在第一个开始执行,不再堵塞的情况下 第二个、第三个就开始run了,且结束时间可能会在第二个第一个之前。

2012-07-05 10:44:28 2631

Hadoop Mapreduce优先级调度

跑三个mapreduce 分别设置优先级VERY_HIGH,HIGH,NORMAL我认为 会等第一个mapreduce 完成之后 才开始第二个,第三个mapreduce结果不是这样,在第一个开始执行,不再堵塞的情况下 第二个、第三个就开始run了,且结束时间可能会在第二个第一个之前。...

2012-07-05 10:44:00 137

subclipse-1.8.9

svn 的eclipse插件 ,目前最新版,不用去官网下了,速度很慢,此处仅需要一个积分,是为了我以后能下载别的资源,大家下载后评论,自然就会还给大家 具体使用大家懂得

2012-05-15

Struts 开发入门与项目实战

struts开发入门与项目实践的源码,很多人发邮件和我要。就发到csdn里了。忘各位发email和我要的人见谅。要分是因为我也要下载东西。发到csdn是因为给很多人发附件是个痛苦的事情……<br>还有就是由于上传限制。去掉了所有jar文件这个很好下的,请自己baidu一下

2008-01-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除