iteye_20264-CSDN博客

原创 DirectByteBuffer vs. HeapByteBuffer选择问题

[b]引言：[/b] 最近基本完成了一个网络传输的framework，其中socket channel对于ByteBuffer的操作中遇到了HeapByteBuffer与DirectByteBuffer的选择问题，在这里做一下总结。 [b]语法：[/b] [i]分配HeapByteBuffer[/i] [code="java"]ByteBuffer buffer = ByteBuffe...

2013-09-06 15:08:33 194

原创 AVRO IPC HelloWorld

avro-ipc的HelloWorld例子 [b]pom.xml[/b] [code="xml"] org.apache.avro avro org.apache.avro avro-ipc ... org.apache.avro avro-maven-plugin generate-sources pro...

2013-09-03 22:10:54 228

原创 [实验]avro与non-avro的mapred例子-wordcount改写

avro非常适合用于hadoop。在开发的时候可能有这样的场景，输入的文件是non-avro的，输出的文件是avro的。这样就需要一个是非avro的mapper和一个avro的reducer。下面通过改写wordcount例子演示这个过程。 [b]Mapper[/b] [code="java"] public class WordCountMapper extends MapReduceBa...

2013-09-03 16:15:41 121

原创 [实验]hadoop例子 trackinfo数据清洗的改写

之前的“trackinfo数据清洗”例子中为使用combiner，这个列子通过改写mapper和reducer以支持combiner，同时使用1.75因子计算的reducer task数量。[url]http://gqm.iteye.com/blog/1935541[/url] [b]Mapper[/b] [code="java"] public class TrackInfoCleansi...

2013-09-03 10:42:36 198

原创 [笔记]hadoop tutorial - Reducer

[quote]Reducer reduces a set of intermediate values which share a key to a smaller set of values.[/quote] [b]Reducer的数量[/b] 可通过以下方法设置 [code="java"]JobConf.setNumReduceTasks(int);[/code] 可以修改mapred...

2013-09-03 10:15:33 111

原创 [实验]hadoop例子 trackinfo数据清洗

[b]业务场景：[/b] 假设用户在某处(例如某个网页或者某个地点)的活动会有一个日志，通过日志清洗出用户的一个点击流或者路径流，从而为后续分析做准备。 [i]例子中使用了自定义的Hadoop的Writable类[/i] [b]位置类Location.java[/b] 定义了主位置信息mainLoc和细分位置信息subLoc [code="java"] public class L...

2013-09-02 17:24:41 337

原创 [环境] hadoop 开发环境maven管理

贴一下整理的maven管理配置（待补充） [code="pom.xml"] 4.0.0 com.sanss.hadoop parent 1.0.0 pom SANSSHadoop :: Module :: Parent ...

2013-09-02 17:02:14 80

原创 [笔记]avro 介绍及官网例子

[b]Apache Avro[/b]是一个独立于编程语言的数据序列化系统。旨在解决Hadoop中Writable类型的不足：缺乏语言的可移植性。其强调数据的自我描述，依赖于它的schema。即支持动态加载schema，动态映射；也支持代码生成的描述性映射。 [i]官网的介绍：[/i] [quote]Apache Avro™ is a data serialization system. Avr...

2013-09-02 14:22:12 136

原创 [实验]hadoop例子在线用户分析

一个简单的业务场景和例子。由wordcount例子改写。业务场景：每个用户有在线事件，并带有日志。分析一段时间内的在线的用户以及他们的事件数。备注：假设事件日志中以逗号分割字段，第5个字段为用户识别码 [code="java"] public class ActiveUserMapper extends Mapper { private final static Int...

2013-08-30 15:54:24 123

原创 [笔记]hadoop mapred InputFormat分析

Hadoop MapReduce的编程接口层主要有5个可编程组件，分别为InputFormat、Mapper、Partitioner、Reducer和OutputFormat。 [b]InputFormat[/b] 主要用于描述输入数据的格式，提供两个功能： [*]数据切分：将输入数据切分为若干个split（分片），每个split会被分发到一个Map任务中。 [*]记录识别：通过创建R...

2013-08-30 13:43:13 83

原创 [笔记]hdfs namenode FSNamesystem分析

NameNode在内存中维护整个文件系统的元数据镜像，用于HDFS的管理。 NameNode中元数据的管理主要由类FSNamesystem实现。 [quote]/*************************************************** * FSNamesystem does the actual bookkeeping work for the * Dat...

2013-08-30 09:18:12 601

原创 [笔记]hdfs namenode FSImage分析1

[b]元数据文件fsimage的分析[/b] fsimage为元数据镜像文件，存储的是某一时刻NameNode内存元数据信息，包括所有的INode信息、正在写入的文件信息以及其他的一些状态信息等。 [quote] /** * Save current image and empty journal into {@code current} directory. */ p...

2013-08-29 15:10:30 264

原创 [实验]集群hadoop配置

2013-08-28 16:53:08 70

原创 [实验]单机hadoop配置

[b]环境：[/b] hadoop1.2.0 [b]配置[/b] 修改conf/core-site.xml [code="xml"] fs.default.name hdfs://localhost:9000 [/code] 修改conf/hdfs-site.xml ...

2013-08-28 14:16:06 97

原创 [问题解决]hadoop eclipse plugin

[b]环境：[/b] hadoop 1.2.0 [b]问题：[/b] eclipse报错"Error:failure to login" [b]原因：[/b] 检查eclipse日志，缺少依赖包，报NoClassDefFoundError [b]解决方法：[/b] src/contrib/eclipse-plugin目录修改build.xml [code="xml"] ...

2013-08-27 09:22:58 95

iteye_20264的博客