自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 资源 (4)
  • 收藏
  • 关注

转载 Hadoop计算中的Shuffle过程

Shuffle过程是MapReduce的核心,,也是优化的重点,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼

2014-10-28 11:17:49 635

转载 配置Hadoop开发环境(Eclipse)

通常我们可以用Eclipse作为Hadoop程序的开发平台。1)  下载Eclipse下载地址:http://www.eclipse.org/downloads/根据操作系统类型,选择合适的版本下载并安装。2)  下载并编译Hadoop的Eclipse插件网上可直接下载到Hadoop 1.x 的Eclipse插件,但是该插件和Hadoop2.2 不兼容,所以

2014-10-27 14:54:15 632

转载 hbase-0.94.0与hive-0.9.0的整合

环境: Hadoop1.0.4, Hbase0.94.0, Zookeeper 3.4.3, 这三个组件已经在3台机器master, s1, s2上以集群方式安装并运行。1> 下载hive-0.9.0.tar.gz 并解压到/opt/hadoop/hive-0.9.02>  cd /opt/hadoop/hive-0.9.0/lib, 删除已有的hbase-0.92.0.jar 以及h

2013-12-26 17:27:45 785

转载 Hive安装及问题解决

刚刚安装好Hadoop迫不及待要玩下hive,所以自己找了些资料,安装了下hive,这里记录详细的安装过程和碰到的问题:1.在安装hadoop之前首先确定hadoop已经安装成功,具体安装方法请参考hadoop安装 见 http://www.linuxidc.com/Linux/2011-12/48784.htm 与 http://www.linuxidc.com/Linux/20

2013-12-26 17:07:44 783

转载 Linux下Mysql的配置(rpm形式安装)

安装rmp -ivh MySQL-server-4.1.22-0.glibc23.i386.rpm --nodepsrmp -ivh MySQL-client-4.1.22-0.glibc23.i386.rpm --nodeps查看是否安装成功netstat -atln 命令看到3306端口开放说明安装成功登录mysql [-u user

2013-12-26 17:06:34 804

转载 hadoop1.0.3 中的hive0.9.0的安装

1. rpm安装mysqlMySQL-server-5.5.30-1.rhel5.i386.rpmhttp://pan.baidu.com/share/link?shareid=251605591&uk=3457442646&fid=203352036MySQL-client-5.5.30-1.rhel5.i386.rpmhttp://pan.baidu.com/s

2013-12-26 17:05:36 1218

转载 Oracle表空间概念

表空间是oracle数据库中最大的逻辑组成部分。它在物理上与磁盘上的数据文件相对应(一个表空间由一个或多个数据文件组成,但一个数据文件只能属于一个表空间)■查看排序段的使用情况  SQL> select * from v$sort_segment;  ■查看使用排序段的会话和用户信息  SQL> select * from v$sort_usage;■查询数据字典视图得到撤

2013-12-23 16:37:33 694

转载 nginx+tomcat+session共享

1 起因最近对新开发的web系统进行了压力测试,发现tomcat默认配置下压到600人的并发登录首页响应速度就有比较严重的影响,一轮出现2000多个的500和502错误。我把登录的时间统计做了一下,把服务器处理总时间打印出来,看了一下发现有个别响应确实在20秒,但平均时间和lr测试出来的还是相差很远。所以可以断定不是程序处理处理花费了这么多时间,由于在局域网测试,所以也可以排除网络问题。这

2013-12-22 23:02:34 704

转载 Apache与Tomcat整合实现动静分离与负载均衡的配置实践

参考资料:http://www.ibm.com/developerworks/cn/opensource/os-lo-apache-tomcat/通常,将Apache与Tomcat整合主要出于以下几个原因:1. 提升对静态文件的处理性能,所有静态文件均由前端的Apache响应,其它与JSP相关的请求分发给后端的Tocmat处理;2. 利用Apache服务器来做负载均衡以及容错,

2013-12-22 22:43:18 1550

转载 解决negix+tomcat均衡负载session共享问题

今天看到"基于apache的tomcat负载均衡和集群配置 "这篇文章成为javaEye热点。略看了一下,感觉太复杂,要配置的东西太多,因此在这里写出一种更简洁的方法。 要集群tomcat主要是解决SESSION共享的问题,因此我利用memcached来保存session,多台TOMCAT服务器即可共享SESSION了。 你可以自己写tomcat的扩展来保存

2013-12-22 22:41:18 2155

转载 图文解说:Nginx+tomcat配置集群负载均衡

作者:niumd   Blog:http://ari.iteye.com  转载请注明出处,谢谢    开发的应用采用F5负载均衡交换机,F5将请求转发给5台hp unix服务器,每台服务器有多个webserver实例,对外提供web服务和socket等接口服务。之初,曾有个小小的疑问为何不采用开源的apache、Nginx软件负载,F5设备动辄几十万,价格昂贵?自己一

2013-12-22 22:28:12 1229

转载 Linux中Apache+Tomcat+JK实现负载均衡和群集的完整过程

个人原创,一个字一个字地码的,尊重版权,转载请注明出处! http://blog.csdn.net/chaijunkun/article/details/6987443 最近在开发的项目需要承受很高的并发量。综合各种情况,决定使用Apache+Tomcat+JK的方式实现负载均衡,并且作为一个统一的服务还要实现群集(同步Session)。在网上找了很多资料,都是零零

2013-12-22 22:26:26 988

转载 JAVA线程池代码浅析

1.       ExecutorService Java从1.5开始正式提供了并发包,而这个并发包里面除了原子变量,synchronizer,并发容器,另外一个非常重要的特性就是线程池.对于线程池的意义,我们这边不再多说.上图是线程池的主体类图,ThreadPoolExecutor是应用最为广泛的一个线程池实现(我也将在接下来的文字中详细描述我对这个类的理解和执行机制),Sche

2013-12-22 17:48:54 758

转载 JAVA LOCK浅析

JAVA LOCK总体来说关键要素主要包括3点: 1.unsafe.compareAndSwapXXX(Object o,long offset,int expected,int x)2.unsafe.park() 和 unsafe.unpark()3.单向链表结构或者说存储线程的数据结构第1点主要为了保证锁的原子性,相当于一个锁是否正在被使用的标记,并且比较和设置这个标记的操

2013-12-22 17:48:06 882

转载 zookeeper使用和原理探究(一)

(一)zookeeper使用和原理探究zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件,它是开源的Hadoop项目中的一个子项目,并且根据google发表的论文来实现的,接下来我们首先来安装使用下这个软件,然后再来探索下其中比较重要一致性算法。  zookeeper安装和使用zookeeper的安装基本上可以按照 http://hadoop.a

2013-12-22 17:45:54 662

转载 (转)hadoop配置、运行错误总结

新手搞hadoop最头疼各种各样的问题了,我把自己遇到的问题以及解决办法大致整理一下先,希望对你们有所帮助。一、hadoop集群在namenode格式化(bin/hadoop namenode -format)后重启集群会出现如下Incompatible namespaceIDS in … :namenode namespaceID = … ,datanode namespac

2013-12-19 12:58:31 829

转载 Hadoop二次排序

我想涉及到文件的Join操作应该都要使用到二次排序吧,之前我用字符串拼接的方法显得太不专业了,本来在reduce过程中是不需要保存这些数据的,遍历一次便可以将记录全部collect好。Hadoop 0.20包里面有一个SecondarySort的例子程序,结合公司牛人写的一个ppt,终于搞明白了。呵呵,刚好也用上了,所以总结一下。Hadoop提供了几种默认类型如果Text,LongWrit

2013-12-19 12:35:19 783

转载 Hadoop二次排序

我想涉及到文件的Join操作应该都要使用到二次排序吧,之前我用字符串拼接的方法显得太不专业了,本来在reduce过程中是不需要保存这些数据的,遍历一次便可以将记录全部collect好。Hadoop 0.20包里面有一个SecondarySort的例子程序,结合公司牛人写的一个ppt,终于搞明白了。呵呵,刚好也用上了,所以总结一下。Hadoop提供了几种默认类型如果Text,LongWrit

2013-12-19 12:34:46 716

转载 MapReduce中的二次排序

在MapReduce操作时,我们知道传递的会按照key的大小进行排序,最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上,对value也进行排序。这种需求就是二次排序。我们先看一下Mapper任务的数据处理过程吧,见下图。在图中,数据处理分为四个阶段:(1)Mapper任务会接收输入分片,然后不断的调用map函数,对记录进行处理。处理完毕后,转换为

2013-12-19 09:53:48 778

转载 MapReduce工作原理

Map-Reduce框架的运作完全基于对,即数据的输入是一批对,生成的结果也是一批对,只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化(serialize)操作,所以它们必须要实现Writable接口,而且key的类还必须实现WritableComparable接口,使得可以让框架对数据集的执行排序操作。 一个Map-Reduce任务的执行过程以及数据输入输出的类

2013-12-17 17:07:28 686

转载 Hadoop : MapReduce中的Shuffle和Sort分析

MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。         MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任

2013-12-16 16:10:52 616

转载 Hadoop运行原理详解

目录(?)[-]Map-Reduce的逻辑过程Map-Reduce数据流data flow任务提交任务初始化任务分配任务执行Map的过程Reduce的过程任务结束                             我们通过下面这个天气数据处理的例子来说明Hadoop的运行原理.1、Map-Reduce的逻辑过程假设我们需要处理一

2013-12-16 13:15:21 678

转载 【Hadoop】HDFS的运行原理

HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点:① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。② 运行在廉价的机器上。③ 适合大数据的处理。多大?多小?HDFS

2013-12-16 13:10:00 676

转载 Hbase简介

一、简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop become Apache

2013-12-12 14:20:10 702

转载 hadoop作业引用第三方jar文件

编写mapreduce程序,习惯用eclipse,可以利用hadoop插件,引用第三方jar文件,然后直接run on hadoop即可,很方便。当然插件和eclipse的版本要匹配,不然总是local执行。但如果将自己的程序发布成jar文件,然后用hadoop命令行执行,则会遇到依赖类找不到问题:NoClassDefFoundError。    要解决这个问题,就需要了解hadoop命令式如

2013-12-06 14:37:35 958

转载 ZooKeeper安装运行

目录(?)[-]ZooKeeper介绍ZooKeeper官网ZooKeeper安装ZooKeeper测试ZooKeeper介绍   ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务

2013-12-04 16:10:48 791

转载 ZooKeeper-3.3.4集群安装配置

ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行,不过它的长处在

2013-12-03 11:39:51 597

转载 HBase-0.90.4集群安装配置

集群hbasehadoopconstantsshellnosql数据库目录(?)[-]准备工作Standalone模式Distributed模式总结说明参考链接HBase是Hadoop数据库,能够实现随机、实时读写你的Big Data,它是Google的Bigtable的开源实现,可以参考Bigtable的论文Bigtable: A Distributed Storage

2013-12-03 11:36:56 893

转载 [转载]HBase常用命令与测试

说明:新版hbase取消了对HQL的支持,只能使用shell命令:disable 'tableName' --disable表。注:修改表结构时,必须要先disable表。命令:enable 'tableName' --使表可用命令:drop 'tableName' --删除表HBase基本命令下面我们再看看看HBase的一些基本操作命令,我列出了几个常用的HBase Shel

2013-12-02 15:03:02 599

转载 社会化海量数据采集爬虫框架搭建

随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏览器,输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本

2013-12-01 21:30:48 1555

转载 HBase性能优化方法总结

文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个regi

2013-11-29 15:30:17 699

转载 HBase的数据的update

hbase是以rowkey,column,timestamp这三个维度来区分的。即如果两条记录其rowkey,column,timestamp一样的话,那么hbase就会认为其是相同的数据。 Java代码           row     column   value   time   put      r1     cf:c1      '5'       

2013-11-29 15:01:59 1780

转载 大数据时代,给大数据应用还在不惑的人

最近这几年大数据抄的很火很热,出现了很多大数据的处理框架,hadoop作为其中的一个也是开源Paas中优秀的一个,本贴暂不讨论使用什么大数据处理框架,给出一个视频给大家分享一下大数据时代到底是什么回事,无疑《大数据时代》一书是阅读的首选,关注大数据的人在地摊上都能看到这本书,本贴提供一段40多分钟视频给大家,对应那些不想看书,只是简单了解的人,我想这段视频还是可以满足你又好奇又懒于看书阅读的心

2013-11-26 11:24:02 624

转载 hadoop mapreduce

以hadoop带的wordcount为例子(下面是启动行):hadoop jarhadoop-0.19.0-examples.jar wordcount /usr/input /usr/output用户提交一个任务以后,该任务由JobTracker协调,先执行Map阶段(图中M1,M2和M3),然后执行Reduce阶段(图中R1和R2)。Map阶段和Reduce阶段动作都受TaskTrac

2013-11-22 13:09:24 809

转载 运行hadoop基准测试

由于需要为hadoop集群采购新的服务器,需要对服务器在hadoop环境下的性能进行测试,所以特地整理了一下hadoop集群自带的测试用例:bin/hadoop jar hadoop-*test*.jar运行上述命令,可以得到hadoop-*test*.jar自带的测试程序[html] view plaincopyAn example program 

2013-11-18 17:52:37 1274

转载 测试眼里的Hadoop系列 之Terasort

TeraSort是Hadoop的测试中很有用的一个工具,但以前只是粗略的知道它的功能和用法,简单的用它做了几个测试用例。实际上,对于这种比较通用的工具,如果能够了解它更多一些的话,对于理解Hadoop是很有帮助的,同时也可以更好的利用它来帮助测试。最近有点时间,就了解了一些它的背景,代码实现原理等等,就先记录下来吧。1. Hadoop与Sort BenchmarksSortBenchmar

2013-11-18 17:46:25 924

转载 Hadoop Capacity Scheduler配置使用记录

网址: http://www.cnblogs.com/panfeng412/archive/2013/03/22/hadoop-capacity-scheduler-configuration.html这里参考Capacity Scheduler Guide,结合自己的实践经验,对Capacity Scheduler的主要配置参数进行总结。以下标记为红色的部分大都是自己曾踩过坑的地方,希望

2013-11-17 20:46:29 680

转载 Hadoop的Slots概念

Slots是Hadoop的一个重要概念。然而在Hadoop相关论文,slots的阐述难以理解。网上关于slots的概念介绍也很少,而对于一个有经验的Hadoop开发者来说,他们可能脑子里已经理解了slots的真正含义,但却难以清楚地表达出来,Hadoop初学者听了还是云里雾里。我来尝试讲解一下,以期抛砖引玉。首先,slot不是CPU的Core,也不是memory chip,它是一个逻辑

2013-11-17 20:39:29 701

转载 Hadoop分布式时远程Datanode无法启动的解决

问题的基本现象: 在测试Hadoop的分布式环境搭建时,在namenode启动时信息如下: 引用[www.linuxidc.com@linuxidc hadoop]$ bin/start-all.sh starting namenode, logging to /home/linuxidc/hadoop/bin/../logs/hadoop-linuxidc-namenod

2013-11-12 09:25:30 726

转载 Hadoop切分纯文本时对某一行跨两个分片这种情况的处理

当我们提交一个MapReduce程序来处理一个或多个纯文本时,Hadoop会根据设置的分片(split)大小把文件切分成多个(InputSplit),然后分配给MapReduce程序处理。而由于Hadoop对文件做切分的时候,只考虑分片大小,而不管切分的时候会不会把某一行分成两半(事实上,一个分片的结尾正好是一个换行符的概率很低)。那么,在MapReduce程序处理每一行文本的时候,我们会不会得到

2013-11-10 13:48:48 2354

hadoop最新权威指南

hadoop最新权威指南

2013-06-24

Java常用算法

个人总结的java经典常用算法,面试有帮助

2013-06-24

淘宝网技术框架解析

分析淘宝网技术框架,电子商务网站架构设计有帮助

2013-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除