- 博客(15)
- 收藏
- 关注
原创 DirectByteBuffer vs. HeapByteBuffer选择问题
[b]引言:[/b] 最近基本完成了一个网络传输的framework,其中socket channel对于ByteBuffer的操作中遇到了HeapByteBuffer与DirectByteBuffer的选择问题,在这里做一下总结。 [b]语法:[/b] [i]分配HeapByteBuffer[/i] [code="java"]ByteBuffer buffer = ByteBuffe...
2013-09-06 15:08:33 194
原创 AVRO IPC HelloWorld
avro-ipc的HelloWorld例子 [b]pom.xml[/b] [code="xml"] org.apache.avro avro org.apache.avro avro-ipc ... org.apache.avro avro-maven-plugin generate-sources pro...
2013-09-03 22:10:54 228
原创 [实验]avro与non-avro的mapred例子-wordcount改写
avro非常适合用于hadoop。在开发的时候可能有这样的场景,输入的文件是non-avro的,输出的文件是avro的。这样就需要一个是非avro的mapper和一个avro的reducer。下面通过改写wordcount例子演示这个过程。 [b]Mapper[/b] [code="java"] public class WordCountMapper extends MapReduceBa...
2013-09-03 16:15:41 121
原创 [实验]hadoop例子 trackinfo数据清洗的改写
之前的“trackinfo数据清洗”例子中为使用combiner,这个列子通过改写mapper和reducer以支持combiner,同时使用1.75因子计算的reducer task数量。[url]http://gqm.iteye.com/blog/1935541[/url] [b]Mapper[/b] [code="java"] public class TrackInfoCleansi...
2013-09-03 10:42:36 198
原创 [笔记]hadoop tutorial - Reducer
[quote]Reducer reduces a set of intermediate values which share a key to a smaller set of values.[/quote] [b]Reducer的数量[/b] 可通过以下方法设置 [code="java"]JobConf.setNumReduceTasks(int);[/code] 可以修改mapred...
2013-09-03 10:15:33 111
原创 [实验]hadoop例子 trackinfo数据清洗
[b]业务场景:[/b] 假设用户在某处(例如某个网页或者某个地点)的活动会有一个日志,通过日志清洗出用户的一个点击流或者路径流,从而为后续分析做准备。 [i]例子中使用了自定义的Hadoop的Writable类[/i] [b]位置类Location.java[/b] 定义了主位置信息mainLoc和细分位置信息subLoc [code="java"] public class L...
2013-09-02 17:24:41 337
原创 [环境] hadoop 开发环境maven管理
贴一下整理的maven管理配置(待补充) [code="pom.xml"] 4.0.0 com.sanss.hadoop parent 1.0.0 pom SANSSHadoop :: Module :: Parent ...
2013-09-02 17:02:14 80
原创 [笔记]avro 介绍及官网例子
[b]Apache Avro[/b]是一个独立于编程语言的数据序列化系统。旨在解决Hadoop中Writable类型的不足:缺乏语言的可移植性。其强调数据的自我描述,依赖于它的schema。即支持动态加载schema,动态映射;也支持代码生成的描述性映射。 [i]官网的介绍:[/i] [quote]Apache Avro™ is a data serialization system. Avr...
2013-09-02 14:22:12 136
原创 [实验]hadoop例子 在线用户分析
一个简单的业务场景和例子。由wordcount例子改写。 业务场景: 每个用户有在线事件,并带有日志。分析一段时间内的在线的用户以及他们的事件数。 备注:假设事件日志中以逗号分割字段,第5个字段为用户识别码 [code="java"] public class ActiveUserMapper extends Mapper { private final static Int...
2013-08-30 15:54:24 123
原创 [笔记]hadoop mapred InputFormat分析
Hadoop MapReduce的编程接口层主要有5个可编程组件,分别为InputFormat、Mapper、Partitioner、Reducer和OutputFormat。 [b]InputFormat[/b] 主要用于描述输入数据的格式,提供两个功能: [*]数据切分:将输入数据切分为若干个split(分片),每个split会被分发到一个Map任务中。 [*]记录识别:通过创建R...
2013-08-30 13:43:13 83
原创 [笔记]hdfs namenode FSNamesystem分析
NameNode在内存中维护整个文件系统的元数据镜像,用于HDFS的管理。 NameNode中元数据的管理主要由类FSNamesystem实现。 [quote]/*************************************************** * FSNamesystem does the actual bookkeeping work for the * Dat...
2013-08-30 09:18:12 601
原创 [笔记]hdfs namenode FSImage分析1
[b]元数据文件fsimage的分析[/b] fsimage为元数据镜像文件,存储的是某一时刻NameNode内存元数据信息,包括所有的INode信息、正在写入的文件信息以及其他的一些状态信息等。 [quote] /** * Save current image and empty journal into {@code current} directory. */ p...
2013-08-29 15:10:30 264
原创 [实验]集群hadoop配置
[b]环境[/b] hadoop1.2.0 CentOS release 6.4 jdk1.7.0_25 [table] |node04vm01|192.168.15.146|master|NameNode,SecondaryNameNode,JobTracker| |node04vm02|192.168.15.147|slave|DataNode,TaskTracker| |n...
2013-08-28 16:53:08 70
原创 [实验]单机hadoop配置
[b]环境:[/b] hadoop1.2.0 [b]配置[/b] 修改conf/core-site.xml [code="xml"] fs.default.name hdfs://localhost:9000 [/code] 修改conf/hdfs-site.xml ...
2013-08-28 14:16:06 97
原创 [问题解决]hadoop eclipse plugin
[b]环境:[/b] hadoop 1.2.0 [b]问题:[/b] eclipse报错"Error:failure to login" [b]原因:[/b] 检查eclipse日志,缺少依赖包,报NoClassDefFoundError [b]解决方法:[/b] src/contrib/eclipse-plugin目录 修改build.xml [code="xml"] ...
2013-08-27 09:22:58 95
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人