appstore81-CSDN博客

转载 Hadoop计算中的Shuffle过程

Shuffle过程是MapReduce的核心,，也是优化的重点，也被称为奇迹发生的地方。要想理解MapReduce，Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼

2014-10-28 11:17:49 635

转载配置Hadoop开发环境（Eclipse）

通常我们可以用Eclipse作为Hadoop程序的开发平台。1）下载Eclipse下载地址：http://www.eclipse.org/downloads/根据操作系统类型，选择合适的版本下载并安装。2）下载并编译Hadoop的Eclipse插件网上可直接下载到Hadoop 1.x 的Eclipse插件，但是该插件和Hadoop2.2 不兼容，所以

2014-10-27 14:54:15 632

转载 hbase-0.94.0与hive-0.9.0的整合

环境： Hadoop1.0.4， Hbase0.94.0, Zookeeper 3.4.3，这三个组件已经在3台机器master, s1, s2上以集群方式安装并运行。1> 下载hive-0.9.0.tar.gz 并解压到/opt/hadoop/hive-0.9.02> cd /opt/hadoop/hive-0.9.0/lib，删除已有的hbase-0.92.0.jar 以及h

2013-12-26 17:27:45 785

转载 Hive安装及问题解决

刚刚安装好Hadoop迫不及待要玩下hive，所以自己找了些资料，安装了下hive，这里记录详细的安装过程和碰到的问题：1.在安装hadoop之前首先确定hadoop已经安装成功，具体安装方法请参考hadoop安装见 http://www.linuxidc.com/Linux/2011-12/48784.htm 与 http://www.linuxidc.com/Linux/20

2013-12-26 17:07:44 783

转载 Linux下Mysql的配置（rpm形式安装）

安装rmp -ivh MySQL-server-4.1.22-0.glibc23.i386.rpm --nodepsrmp -ivh MySQL-client-4.1.22-0.glibc23.i386.rpm --nodeps查看是否安装成功netstat -atln 命令看到3306端口开放说明安装成功登录mysql [-u user

2013-12-26 17:06:34 804

转载 hadoop1.0.3 中的hive0.9.0的安装

1. rpm安装mysqlMySQL-server-5.5.30-1.rhel5.i386.rpmhttp://pan.baidu.com/share/link?shareid=251605591&uk=3457442646&fid=203352036MySQL-client-5.5.30-1.rhel5.i386.rpmhttp://pan.baidu.com/s

2013-12-26 17:05:36 1218

转载 Oracle表空间概念

表空间是oracle数据库中最大的逻辑组成部分。它在物理上与磁盘上的数据文件相对应（一个表空间由一个或多个数据文件组成，但一个数据文件只能属于一个表空间）■查看排序段的使用情况 SQL> select * from v$sort_segment; ■查看使用排序段的会话和用户信息 SQL> select * from v$sort_usage;■查询数据字典视图得到撤

2013-12-23 16:37:33 694

转载 nginx+tomcat+session共享

1 起因最近对新开发的web系统进行了压力测试，发现tomcat默认配置下压到600人的并发登录首页响应速度就有比较严重的影响，一轮出现2000多个的500和502错误。我把登录的时间统计做了一下，把服务器处理总时间打印出来，看了一下发现有个别响应确实在20秒，但平均时间和lr测试出来的还是相差很远。所以可以断定不是程序处理处理花费了这么多时间，由于在局域网测试，所以也可以排除网络问题。这

2013-12-22 23:02:34 704

转载 Apache与Tomcat整合实现动静分离与负载均衡的配置实践

参考资料：http://www.ibm.com/developerworks/cn/opensource/os-lo-apache-tomcat/通常，将Apache与Tomcat整合主要出于以下几个原因：1. 提升对静态文件的处理性能，所有静态文件均由前端的Apache响应，其它与JSP相关的请求分发给后端的Tocmat处理；2. 利用Apache服务器来做负载均衡以及容错，

2013-12-22 22:43:18 1550

转载解决negix+tomcat均衡负载session共享问题

今天看到"基于apache的tomcat负载均衡和集群配置 "这篇文章成为javaEye热点。略看了一下，感觉太复杂，要配置的东西太多，因此在这里写出一种更简洁的方法。要集群tomcat主要是解决SESSION共享的问题，因此我利用memcached来保存session，多台TOMCAT服务器即可共享SESSION了。你可以自己写tomcat的扩展来保存

2013-12-22 22:41:18 2155

转载图文解说：Nginx+tomcat配置集群负载均衡

作者：niumd Blog:http://ari.iteye.com 转载请注明出处，谢谢开发的应用采用F5负载均衡交换机，F5将请求转发给5台hp unix服务器，每台服务器有多个webserver实例，对外提供web服务和socket等接口服务。之初，曾有个小小的疑问为何不采用开源的apache、Nginx软件负载，F5设备动辄几十万，价格昂贵？自己一

2013-12-22 22:28:12 1229

转载 Linux中Apache+Tomcat+JK实现负载均衡和群集的完整过程

个人原创，一个字一个字地码的，尊重版权，转载请注明出处！ http://blog.csdn.net/chaijunkun/article/details/6987443 最近在开发的项目需要承受很高的并发量。综合各种情况，决定使用Apache+Tomcat+JK的方式实现负载均衡，并且作为一个统一的服务还要实现群集（同步Session）。在网上找了很多资料，都是零零

2013-12-22 22:26:26 988

转载 JAVA线程池代码浅析

1. ExecutorService Java从1.5开始正式提供了并发包,而这个并发包里面除了原子变量,synchronizer,并发容器,另外一个非常重要的特性就是线程池.对于线程池的意义,我们这边不再多说.上图是线程池的主体类图,ThreadPoolExecutor是应用最为广泛的一个线程池实现(我也将在接下来的文字中详细描述我对这个类的理解和执行机制),Sche

2013-12-22 17:48:54 758

转载 JAVA LOCK浅析

JAVA LOCK总体来说关键要素主要包括3点: 1.unsafe.compareAndSwapXXX(Object o,long offset,int expected,int x)2.unsafe.park() 和 unsafe.unpark()3.单向链表结构或者说存储线程的数据结构第1点主要为了保证锁的原子性，相当于一个锁是否正在被使用的标记，并且比较和设置这个标记的操

2013-12-22 17:48:06 882

转载 zookeeper使用和原理探究（一）

（一）zookeeper使用和原理探究zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件，它是开源的Hadoop项目中的一个子项目，并且根据google发表的论文来实现的，接下来我们首先来安装使用下这个软件，然后再来探索下其中比较重要一致性算法。 zookeeper安装和使用zookeeper的安装基本上可以按照 http://hadoop.a

2013-12-22 17:45:54 662

转载（转）hadoop配置、运行错误总结

新手搞hadoop最头疼各种各样的问题了，我把自己遇到的问题以及解决办法大致整理一下先，希望对你们有所帮助。一、hadoop集群在namenode格式化（bin/hadoop namenode -format）后重启集群会出现如下Incompatible namespaceIDS in … :namenode namespaceID = … ,datanode namespac

2013-12-19 12:58:31 829

转载 Hadoop二次排序

我想涉及到文件的Join操作应该都要使用到二次排序吧，之前我用字符串拼接的方法显得太不专业了，本来在reduce过程中是不需要保存这些数据的，遍历一次便可以将记录全部collect好。Hadoop 0.20包里面有一个SecondarySort的例子程序，结合公司牛人写的一个ppt，终于搞明白了。呵呵，刚好也用上了，所以总结一下。Hadoop提供了几种默认类型如果Text，LongWrit

2013-12-19 12:35:19 783

转载 Hadoop二次排序

我想涉及到文件的Join操作应该都要使用到二次排序吧，之前我用字符串拼接的方法显得太不专业了，本来在reduce过程中是不需要保存这些数据的，遍历一次便可以将记录全部collect好。Hadoop 0.20包里面有一个SecondarySort的例子程序，结合公司牛人写的一个ppt，终于搞明白了。呵呵，刚好也用上了，所以总结一下。Hadoop提供了几种默认类型如果Text，LongWrit

2013-12-19 12:34:46 716

转载 MapReduce中的二次排序

在MapReduce操作时，我们知道传递的会按照key的大小进行排序，最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上，对value也进行排序。这种需求就是二次排序。我们先看一下Mapper任务的数据处理过程吧，见下图。在图中，数据处理分为四个阶段：（1）Mapper任务会接收输入分片，然后不断的调用map函数，对记录进行处理。处理完毕后，转换为

2013-12-19 09:53:48 778

转载 MapReduce工作原理

Map-Reduce框架的运作完全基于对，即数据的输入是一批对，生成的结果也是一批对，只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化（serialize）操作，所以它们必须要实现Writable接口，而且key的类还必须实现WritableComparable接口，使得可以让框架对数据集的执行排序操作。一个Map-Reduce任务的执行过程以及数据输入输出的类

2013-12-17 17:07:28 686

转载 Hadoop : MapReduce中的Shuffle和Sort分析

MapReduce 是现今一个非常流行的分布式计算框架，它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司，而Google 的灵感则来自于函数式编程语言，如LISP，Scheme，ML 等。 MapReduce 框架的核心步骤主要分两部分：Map 和Reduce。当你向MapReduce 框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map 任

2013-12-16 16:10:52 616

转载 Hadoop运行原理详解

目录(?)[-]Map-Reduce的逻辑过程Map-Reduce数据流data flow任务提交任务初始化任务分配任务执行Map的过程Reduce的过程任务结束我们通过下面这个天气数据处理的例子来说明Hadoop的运行原理.1、Map-Reduce的逻辑过程假设我们需要处理一

2013-12-16 13:15:21 678

转载【Hadoop】HDFS的运行原理

HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。HDFS有很多特点：① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。② 运行在廉价的机器上。③ 适合大数据的处理。多大？多小？HDFS

2013-12-16 13:10:00 676

转载 Hbase简介

一、简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop become Apache

2013-12-12 14:20:10 702

转载 hadoop作业引用第三方jar文件

编写mapreduce程序，习惯用eclipse，可以利用hadoop插件，引用第三方jar文件，然后直接run on hadoop即可，很方便。当然插件和eclipse的版本要匹配，不然总是local执行。但如果将自己的程序发布成jar文件，然后用hadoop命令行执行，则会遇到依赖类找不到问题：NoClassDefFoundError。要解决这个问题，就需要了解hadoop命令式如

2013-12-06 14:37:35 958

转载 ZooKeeper安装运行

目录(?)[-]ZooKeeper介绍ZooKeeper官网ZooKeeper安装ZooKeeper测试ZooKeeper介绍 ZooKeeper是Hadoop的正式子项目，它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务

2013-12-04 16:10:48 791

转载 ZooKeeper-3.3.4集群安装配置

ZooKeeper是一个分布式开源框架，提供了协调分布式应用的基本服务，它向外部应用暴露一组通用服务——分布式同步（Distributed Synchronization）、命名服务（Naming Service）、集群维护（Group Maintenance）等，简化分布式应用协调及其管理的难度，提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行，不过它的长处在

2013-12-03 11:39:51 597

转载 HBase-0.90.4集群安装配置

集群hbasehadoopconstantsshellnosql数据库目录(?)[-]准备工作Standalone模式Distributed模式总结说明参考链接HBase是Hadoop数据库，能够实现随机、实时读写你的Big Data，它是Google的Bigtable的开源实现，可以参考Bigtable的论文Bigtable: A Distributed Storage

2013-12-03 11:36:56 893

转载 [转载]HBase常用命令与测试

说明：新版hbase取消了对HQL的支持，只能使用shell命令：disable 'tableName' --disable表。注：修改表结构时，必须要先disable表。命令：enable 'tableName' --使表可用命令：drop 'tableName' --删除表HBase基本命令下面我们再看看看HBase的一些基本操作命令，我列出了几个常用的HBase Shel

2013-12-02 15:03:02 599

转载社会化海量数据采集爬虫框架搭建

随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢？1、打开浏览器，输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本

2013-12-01 21:30:48 1555

转载 HBase性能优化方法总结

文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，这里涉及的不多，这部分可以参考：淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个regi

2013-11-29 15:30:17 699

转载 HBase的数据的update

hbase是以rowkey，column，timestamp这三个维度来区分的。即如果两条记录其rowkey，column，timestamp一样的话，那么hbase就会认为其是相同的数据。 Java代码 row column value time put r1 cf:c1 '5'

2013-11-29 15:01:59 1780

转载大数据时代，给大数据应用还在不惑的人

最近这几年大数据抄的很火很热，出现了很多大数据的处理框架，hadoop作为其中的一个也是开源Paas中优秀的一个，本贴暂不讨论使用什么大数据处理框架，给出一个视频给大家分享一下大数据时代到底是什么回事，无疑《大数据时代》一书是阅读的首选，关注大数据的人在地摊上都能看到这本书，本贴提供一段40多分钟视频给大家，对应那些不想看书，只是简单了解的人，我想这段视频还是可以满足你又好奇又懒于看书阅读的心

2013-11-26 11:24:02 624

转载 hadoop mapreduce

以hadoop带的wordcount为例子（下面是启动行）：hadoop jarhadoop-0.19.0-examples.jar wordcount /usr/input /usr/output用户提交一个任务以后，该任务由JobTracker协调，先执行Map阶段（图中M1，M2和M3），然后执行Reduce阶段（图中R1和R2）。Map阶段和Reduce阶段动作都受TaskTrac

2013-11-22 13:09:24 809

转载运行hadoop基准测试

由于需要为hadoop集群采购新的服务器，需要对服务器在hadoop环境下的性能进行测试，所以特地整理了一下hadoop集群自带的测试用例：bin/hadoop jar hadoop-*test*.jar运行上述命令，可以得到hadoop-*test*.jar自带的测试程序[html] view plaincopyAn example program

2013-11-18 17:52:37 1274

转载测试眼里的Hadoop系列之Terasort

TeraSort是Hadoop的测试中很有用的一个工具，但以前只是粗略的知道它的功能和用法，简单的用它做了几个测试用例。实际上，对于这种比较通用的工具，如果能够了解它更多一些的话，对于理解Hadoop是很有帮助的，同时也可以更好的利用它来帮助测试。最近有点时间，就了解了一些它的背景，代码实现原理等等，就先记录下来吧。1. Hadoop与Sort BenchmarksSortBenchmar

2013-11-18 17:46:25 924

转载 Hadoop Capacity Scheduler配置使用记录

网址: http://www.cnblogs.com/panfeng412/archive/2013/03/22/hadoop-capacity-scheduler-configuration.html这里参考Capacity Scheduler Guide，结合自己的实践经验，对Capacity Scheduler的主要配置参数进行总结。以下标记为红色的部分大都是自己曾踩过坑的地方，希望

2013-11-17 20:46:29 680

转载 Hadoop的Slots概念

Slots是Hadoop的一个重要概念。然而在Hadoop相关论文，slots的阐述难以理解。网上关于slots的概念介绍也很少，而对于一个有经验的Hadoop开发者来说，他们可能脑子里已经理解了slots的真正含义，但却难以清楚地表达出来，Hadoop初学者听了还是云里雾里。我来尝试讲解一下，以期抛砖引玉。首先，slot不是CPU的Core，也不是memory chip，它是一个逻辑

2013-11-17 20:39:29 701

转载 Hadoop分布式时远程Datanode无法启动的解决

问题的基本现象：在测试Hadoop的分布式环境搭建时，在namenode启动时信息如下：引用[www.linuxidc.com@linuxidc hadoop]$ bin/start-all.sh starting namenode, logging to /home/linuxidc/hadoop/bin/../logs/hadoop-linuxidc-namenod

2013-11-12 09:25:30 726

转载 Hadoop切分纯文本时对某一行跨两个分片这种情况的处理

当我们提交一个MapReduce程序来处理一个或多个纯文本时，Hadoop会根据设置的分片（split）大小把文件切分成多个（InputSplit），然后分配给MapReduce程序处理。而由于Hadoop对文件做切分的时候，只考虑分片大小，而不管切分的时候会不会把某一行分成两半（事实上，一个分片的结尾正好是一个换行符的概率很低）。那么，在MapReduce程序处理每一行文本的时候，我们会不会得到

2013-11-10 13:48:48 2354

hadoop最新权威指南

Java常用算法

淘宝网技术框架解析

空空如也