自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 DirectByteBuffer vs. HeapByteBuffer选择问题

[b]引言:[/b] 最近基本完成了一个网络传输的framework,其中socket channel对于ByteBuffer的操作中遇到了HeapByteBuffer与DirectByteBuffer的选择问题,在这里做一下总结。 [b]语法:[/b] [i]分配HeapByteBuffer[/i] [code="java"]ByteBuffer buffer = ByteBuffe...

2013-09-06 15:08:33 194

原创 AVRO IPC HelloWorld

avro-ipc的HelloWorld例子 [b]pom.xml[/b] [code="xml"] org.apache.avro avro org.apache.avro avro-ipc ... org.apache.avro avro-maven-plugin generate-sources pro...

2013-09-03 22:10:54 228

原创 [实验]avro与non-avro的mapred例子-wordcount改写

avro非常适合用于hadoop。在开发的时候可能有这样的场景,输入的文件是non-avro的,输出的文件是avro的。这样就需要一个是非avro的mapper和一个avro的reducer。下面通过改写wordcount例子演示这个过程。 [b]Mapper[/b] [code="java"] public class WordCountMapper extends MapReduceBa...

2013-09-03 16:15:41 121

原创 [实验]hadoop例子 trackinfo数据清洗的改写

之前的“trackinfo数据清洗”例子中为使用combiner,这个列子通过改写mapper和reducer以支持combiner,同时使用1.75因子计算的reducer task数量。[url]http://gqm.iteye.com/blog/1935541[/url] [b]Mapper[/b] [code="java"] public class TrackInfoCleansi...

2013-09-03 10:42:36 198

原创 [笔记]hadoop tutorial - Reducer

[quote]Reducer reduces a set of intermediate values which share a key to a smaller set of values.[/quote] [b]Reducer的数量[/b] 可通过以下方法设置 [code="java"]JobConf.setNumReduceTasks(int);[/code] 可以修改mapred...

2013-09-03 10:15:33 111

原创 [实验]hadoop例子 trackinfo数据清洗

[b]业务场景:[/b] 假设用户在某处(例如某个网页或者某个地点)的活动会有一个日志,通过日志清洗出用户的一个点击流或者路径流,从而为后续分析做准备。 [i]例子中使用了自定义的Hadoop的Writable类[/i] [b]位置类Location.java[/b] 定义了主位置信息mainLoc和细分位置信息subLoc [code="java"] public class L...

2013-09-02 17:24:41 337

原创 [环境] hadoop 开发环境maven管理

贴一下整理的maven管理配置(待补充) [code="pom.xml"] 4.0.0 com.sanss.hadoop parent 1.0.0 pom SANSSHadoop :: Module :: Parent ...

2013-09-02 17:02:14 80

原创 [笔记]avro 介绍及官网例子

[b]Apache Avro[/b]是一个独立于编程语言的数据序列化系统。旨在解决Hadoop中Writable类型的不足:缺乏语言的可移植性。其强调数据的自我描述,依赖于它的schema。即支持动态加载schema,动态映射;也支持代码生成的描述性映射。 [i]官网的介绍:[/i] [quote]Apache Avro™ is a data serialization system. Avr...

2013-09-02 14:22:12 136

原创 [实验]hadoop例子 在线用户分析

一个简单的业务场景和例子。由wordcount例子改写。 业务场景: 每个用户有在线事件,并带有日志。分析一段时间内的在线的用户以及他们的事件数。 备注:假设事件日志中以逗号分割字段,第5个字段为用户识别码 [code="java"] public class ActiveUserMapper extends Mapper { private final static Int...

2013-08-30 15:54:24 123

原创 [笔记]hadoop mapred InputFormat分析

Hadoop MapReduce的编程接口层主要有5个可编程组件,分别为InputFormat、Mapper、Partitioner、Reducer和OutputFormat。 [b]InputFormat[/b] 主要用于描述输入数据的格式,提供两个功能: [*]数据切分:将输入数据切分为若干个split(分片),每个split会被分发到一个Map任务中。 [*]记录识别:通过创建R...

2013-08-30 13:43:13 83

原创 [笔记]hdfs namenode FSNamesystem分析

NameNode在内存中维护整个文件系统的元数据镜像,用于HDFS的管理。 NameNode中元数据的管理主要由类FSNamesystem实现。 [quote]/*************************************************** * FSNamesystem does the actual bookkeeping work for the * Dat...

2013-08-30 09:18:12 601

原创 [笔记]hdfs namenode FSImage分析1

[b]元数据文件fsimage的分析[/b] fsimage为元数据镜像文件,存储的是某一时刻NameNode内存元数据信息,包括所有的INode信息、正在写入的文件信息以及其他的一些状态信息等。 [quote] /** * Save current image and empty journal into {@code current} directory. */ p...

2013-08-29 15:10:30 264

原创 [实验]集群hadoop配置

[b]环境[/b] hadoop1.2.0 CentOS release 6.4 jdk1.7.0_25 [table] |node04vm01|192.168.15.146|master|NameNode,SecondaryNameNode,JobTracker| |node04vm02|192.168.15.147|slave|DataNode,TaskTracker| |n...

2013-08-28 16:53:08 70

原创 [实验]单机hadoop配置

[b]环境:[/b] hadoop1.2.0 [b]配置[/b] 修改conf/core-site.xml [code="xml"] fs.default.name hdfs://localhost:9000 [/code] 修改conf/hdfs-site.xml ...

2013-08-28 14:16:06 97

原创 [问题解决]hadoop eclipse plugin

[b]环境:[/b] hadoop 1.2.0 [b]问题:[/b] eclipse报错"Error:failure to login" [b]原因:[/b] 检查eclipse日志,缺少依赖包,报NoClassDefFoundError [b]解决方法:[/b] src/contrib/eclipse-plugin目录 修改build.xml [code="xml"] ...

2013-08-27 09:22:58 95

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除