自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hadoop streaming mapreduce多文件输入使用方法

写Mapreduce程序时,常常会有同时处理多个输入文件的的需求,那么如何在map程序中方便的知道这一条record到底来自哪个文件呢?如果数据源是可控的,我们尚可以通过字段的个数等来判断,然而这不是一个优雅的方法,其实hadoop已经给了留了解决方法:在map端获取环境变量map_input_file(0.21.x的版本分支中是mapreduce_map_input_file)即为本次的输入文件

2017-03-18 19:36:03 8191

原创 MapReduce二次排序(secondary sort)实战

接触过mapreduce的同学都知道,为了将key值相同的record放在一起,分配给指定reducer,shuffle阶段会按照key值排序。然而在某些情况下,我们需要同时对value排序,A同学立马提出了如下解决方案:reduce的时候,将同一个key的所有value都存在一个list中,最后再进行排序,这个方案在数据量小时没有问题,可是reducer的内存是有限的,当数据规模很大时,

2017-03-18 19:05:45 2234

原创 Java程序优雅关闭的两种方法

使用java编写大型系统时,往往需要在程序被kill时将内存中的一些临时数据和状态处理掉,这里称之为优雅关闭。介绍两种比较典型的方法。

2016-09-28 10:58:41 25019 1

原创 ElasticSearch java API - 聚合查询

Elastic Search Java API 各种聚合(Aggregation)查询的实现

2016-09-20 17:20:15 26767 6

原创 Clojure环境配置-Eclipse安装Counterclockwise

Eclipse 提供了专门的Clojure 语言开发插件CounterClockwise,在源代码编辑,代码调试,REPL 支持方面也有独到之处,适合于习惯于Eclipse 的开发者使用。项目

2014-07-21 15:30:16 2084

原创 jstorm集群配置部署过程全纪录

Jstorm是阿里在storm的基础上开发的一个流计算系统,提供比storm更多的功能和

2014-07-11 15:10:56 9340

原创 Hadoop Capacity Scheduler配置与使用

Capacity Scheduler简介Capacity Scheduler支持以下特性:(1) 计算能力保证。支持多个队列,某个作业可被提交到某一个队列中。每个队列会配置一定比例的计算资源,且所有提交到队列中的作业共享该队列中的资源。(2) 灵活性。空闲资源会被分配给那些未达到资源使用上限的队列,当某个未达到资源的队列需要资源时,一旦出现空闲资源资源,便会分配给他们。(3)

2013-04-19 09:46:41 1372

《信息检索导论》英文版pdf

曼宁著《信息检索导论》英文版PDF,信息检索领域很权威的一本教材,有中文译本,这个是英文版的

2014-01-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除