自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Mike han

我也不知道自己能走多远,只是一旦停下了,这辈子也就这么回事了

  • 博客(93)
  • 收藏
  • 关注

转载 备份 - web.xml 中spring-servlet.xml 和 application.xml 配置位置及含义

本文转载自:http://blog.csdn.net/tengdazhang770960436/article/details/48395885在我们进行 spring-servlet 进行开发的时候,经常会遇到配置文件配置的问题,要彻底的解决这个问题,我们需要了解 springMVC 设计的基本架构1.SpringMVC 的配置分为两部分 application.xml 和

2017-05-19 16:09:51 541

转载 备份 - spring配置文件详解

转自: http://book.51cto.com/art/201004/193743.htm    spring配置文件是用于指导Spring工厂进行Bean生产、依赖关系注入(装配)及Bean实例分发的"图纸"。Java EE程序员必须学会并灵活应用这份"图纸"准确地表达自己的"生产意图"。Spring配置文件是一个或多个标准的XML文档,applicationContext.xm

2017-05-19 16:04:42 483

原创 分析函数_PERCENT_RANK -- SQL Server 2012 & Hive

刚才已经介绍了 CUME_DIST 在 SQL Server 2012 (Hive)中的应用。因为在 Hive 中的语法跟 Server2012 中相同,所以我这里就不过多叙述 Hive 中使用的细节了。PERCENT_RANK() 函数会返回当前查询结果集和分区的一个相对值。如果你希望进一步了解该函数,可以参考:https://en.wikipedia.org/wiki/Percen

2015-12-12 22:11:47 1409

原创 分析函数_CUME_DIST -- SQL Server 2012 & Hive

最近在整理 Hie 分析函数资料的时候,看到了 CUME_DIST,百度后还是不知其意。于是乎用起了之前介绍的 Webcrawler 搜索引擎 :http://www.webcrawler.com/发现 SQL Server中也包含该分析函数。接下来让我们看看如何在 SQL Server 2012 中使用该分析函数,以帮助大家深入理解 CUME_DIST 函数在 Hive 中的使用。根据

2015-12-12 15:50:39 1252

原创 Row_number & Rank & Dense_Rank

无论是传统数据库还是 Hadoop 数据仓库 Hive,我们都会涉及到窗口函数。今天利用 SQL Server 跟大家总结一下这Rank, Dense_rank, Row_number 三种函数的使用场景及区别:1. Rank() vs Dense_Rank()Rank() 会将数据进行排序。同一个分区下的对应的值从1开始递增,对于排序相同的字段拥有相同的排序值。不同的字段对应着自

2015-12-12 13:08:00 648

原创 图片搜索引擎 - WebCrawler

由于平时使用 Google 比较多,所有对 Google 的图片搜索印象特别深刻。但是说到关联度,个人想推荐一款比较好的搜索引擎,这是很久之前从 Github 上发现的。先分享出来,以后有时间再看看源码。https://github.com/Hanmourang/crawler4j介绍:WebCrawler是一款元搜索引擎,整合了 Google、Yahoo!、Bing Search

2015-12-12 12:50:54 3679

转载 Hive 运算符 & 内置函数详解 -- 适合关键词查找

说实话,该博客排版太零乱,但是不影响关键词查找。转发过来以供以后参考:http://blog.sina.com.cn/s/blog_9f488855010179pt.html1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA ==

2015-12-10 22:50:33 3020

原创 Hive Projects_1. SQL Windowing & 分区表函数 -- 带完善

项目源码:https://github.com/hbutani/SQLWindowing项目介绍:https://github.com/hbutani/SQLWindowing/wikiPPT 介绍:http://www.slideshare.net/Hadoop_Summit/analytical-queries-with-hive目前正在研究该项目源码,会在后续进行更新,有

2015-12-10 21:49:23 763

翻译 Hive ACID 特性 -- 0.13.0

本文翻译于:https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions        转载于:http://www.csdn.net/article/2014-04-23/2819438-Cloud-Hive需要提醒的是,当前Hive版本是 0.14.0。之所以要添加这篇文章,是为后续的文章做铺垫。摘要:Hive

2015-12-10 20:17:40 945

转载 Hive配置文件中配置项的含义详解 -- 收藏版

本篇文章转自:http://www.aboutyun.com/thread-7548-1-1.htmlPreface:1.hive输出格式的配置项是哪个?2.hive被各种语言调用如何配置?3.hive提交作业是在hive中还是hadoop中?4.一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项?5.当用户自定义了UDF或者SerDe,这些插件

2015-12-10 16:55:50 1100

翻译 MapReduce性能优化_9. 数据序列化

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.6 优化数据序列化如何存储和传输数据对性能有很大的影响。在这部分将介绍数据序列化的最佳实践,从Hadoop中榨出最大的性能。 压缩压缩是Hadoop优化的重要部分。通过压缩可以减少作业输出数据的储存足迹,加速MapReduce作业下游接收数据。另外,在map和

2015-12-08 17:44:51 606

翻译 MapReduce性能优化_8. 优化MapReduce的用户JAVA代码

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.5 优化MapReduce用户JAVA代码MapReduce执行代码的方式和普通JAVA应用不同。这是由于MapReduce框架为了能够高效地处理海量数据,需要成百万次调用map和reduce函数。每次调用仅用较少时间。那么就不能用普通的经验来预测常见库(含JDK)的性能表现。

2015-12-08 17:38:12 557

翻译 MapReduce性能优化_7. 减小数据倾斜的性能损失

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.4 减小数据倾斜的性能损失数据倾斜是数据中的常见情况。数据中不可避免地会出现异常值(outlier),并导致数据倾斜。这些异常值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类:数据频率倾斜 -- 某一个区域的数据量要远远大于其他区域。数据大小倾斜 -- 部分记

2015-12-08 17:31:53 1119

翻译 MapReduce性能优化_6. 优化 Shuffle & Sort 阶段

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.3 优化洗牌(shuffle)和排序阶段技术46 规避使用reduce技术47 过滤和投影技术48 使用combine技术49 用Comparator进行超快排序洗牌和排序阶段都很耗费资源。洗牌需要在map和reduce任务之间传输数据

2015-12-08 17:15:51 595

翻译 MapReduce性能优化_5. 诊断一般性能瓶颈

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2.5 硬件性能问题技术39 查找硬件的失效技术40 CPU竞争技术41 内存交换技术42 磁盘健康技术43 网络尽管单独的硬件的MTTF(平均失效前时间)都数以年记,然而在集群中就完全不是这么一回事了。整个集群的MTTF就要小得多。这一节要介绍如何确定CPU,内存,

2015-12-08 16:43:45 890

翻译 MapReduce性能优化_4. 诊断一般性能瓶颈

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2.4 任务一般性能问题技术37 作业竞争和调度器限制技术38 使用堆转存(stack dump)来查找未优化的用户代码这部分将介绍那些对map和reduce任务都有影响的性能问题。技术37 作业竞争和调度器限制即便map任务和re

2015-12-08 16:31:39 721

翻译 MapReduce性能优化_3. 诊断 Reduce 端性能瓶颈

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2.3 Reduce的性能问题技术33 Reduce实例不足或过多技术34 诊断reduce段的数据倾斜的问题技术35 确定reduce任务是否存在整体吞吐量过低技术36 缓慢的洗牌(shuffle)和排序Reduce的性能问题有和map类似的方面,也有和map不同的

2015-12-08 16:24:40 1754

翻译 MapReduce性能优化_2. 诊断 Map 端性能瓶颈

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2 诊断性能瓶颈技术28 调查输入数据中的特别大的部分技术29 诊断map端的数据倾斜(data skew)技术30 诊断map任务的低吞吐量问题技术31 小文件技术32 不可分块的文件有的时候作业的执行时间会长得惊人。想靠猜也是很难猜对问题在哪。这一章中将介绍如何界定问

2015-12-07 16:04:31 777

翻译 MapReduce性能优化_1. 性能测量

本文翻译于 《Hadoop in Practice》, 摘抄自:大牛翻译系列性能调优的基础主要依赖于系统的性能指标和实验数据。依据这些指标和数据,才能找到系统的性能瓶颈。性能指标和实验数据要通过一系列的工具和过程才能得到。这部分里,将介绍Hadoop自带的工具和性能指标。还将捎带介绍性能监控工具。 1 抽取作业统计数据[job statistics]的工具这

2015-12-07 15:24:49 657

原创 Parquet_11. Spark: DataFrames 和 Parquet -- 待完善

具体内容将会在后续进行完善,敬请期待

2015-12-07 00:03:40 455

原创 Parquet_10. Spark & Parquet -- 待完善

具体内容将会在后续进行完善,敬请期待

2015-12-07 00:02:42 500

原创 Parquet_8. MapReduce & Parquet -- 待完善

具体内容将会在后续进行完善,敬请期待

2015-12-06 23:57:51 1413

原创 Parquet_7. 通过命令行来读取 Parquet 文件 -- 待完善

具体内容将会在后续进行完善,敬请期待

2015-12-06 23:56:08 3223

翻译 Parquet_6. 在Impala表中使用 Parquet 格式

在Impala表中使用 Parquet 格式 :翻译原文:http://www.cloudera.com/content/www/en-us/documentation/archive/impala/2-x/2-1-x/topics/impala_parquet.html参考路径:http://my.oschina.net/weiqingbin/blog/194324201

2015-12-06 23:53:57 3157

原创 Parquet_5. SequenceFile vs ORC File vs Parquet File -- 待完善

本节将跟大家探讨一下 SequenceFile 和 ORC File 和 Parquet File的区别与联系具体内容将会在后续进行完善,敬请期待

2015-12-06 23:44:01 2066

原创 Parquet_4. 列式存储总结 -- 待完善

整理于》Columnar storage具体内容将会在后续进行完善,敬请期待

2015-12-06 23:41:07 623

原创 Parquet_3. 在 Impala, Hive, Pig, MR中使用 Parquet File -- 待完善

本节将跟大家讨论一下如何在 Impala,Hive,Pig,MapReduce 中使用列式存储格式的文件具体内容将会在后续进行完善,敬请期待

2015-12-06 23:39:26 1108

翻译 Avro技术应用_12. 将 Avro 数据加载到 Spark 中

这是一篇翻译,原文来自:How to load some Avro data into Spark。首先,为什么使用 Avro ?最基本的格式是 CSV ,其廉价并且不需要顶一个一个 schema 和数据关联。随后流行起来的一个通用的格式是 XML,其有一个 schema 和 数据关联,XML 广泛的使用于 Web Services 和 SOA 架构中。不幸的是,其非常冗长

2015-12-06 15:14:22 963

原创 Avro技术应用_11. 将 HBase 数据存储为 Avro格式的二进制数据 -- 待完善

具体内容将会在后续进行完善,敬请期待

2015-12-06 15:11:45 1617

原创 Avro技术应用_10. 基于键值 - 在 MR 中把文本文件(csv)转换成键值对格式的 Avro 文件 -- 待完善

具体内容将会在后续进行完善,敬请期待

2015-12-06 15:08:14 783

原创 Avro技术应用_9. 基于记录 - MR 输入/出/中间数据使用 Avro 类型 -- 待完善

具体内容将会在后续进行完善,敬请期待

2015-12-06 15:05:54 440

原创 Avro技术应用_8. 混合模式 - MR 输入/出文件为 Avro类型 -- 待完善

具体内容将会在后续进行完善,敬请期待

2015-12-06 15:03:46 513

原创 Avro技术应用_8. 使用 Sqoop 加载数据的时候使用 Avro 格式进行编码 -- 带完善

本节将跟大家讨论一下如何利用 Sqoop 从 MySQL 中抽取Avro格式数据,再利用 Sqoop 将数据导入到 Hive 中具体内容将会在后续进行完善,敬请期待

2015-12-06 14:42:22 947

原创 Avro技术应用_7. 将 Avro 数据读写到一个 Parquet 文件中 -- 待完善

本文将跟大家探讨一下 Avro 与 Parquet 的关系及区别。以及如何将 Avro 数据写入到一个 Parquet 文件中。具体内容将会在后续进行完善,敬请期待:

2015-12-06 09:12:00 1040

原创 Avro技术应用_6. Avro Format & Text Format 之间的转换 --待完善

本文将跟大家探讨一下,Avro 数据格式与文本文件格式直接的转换方法。具体内容将会在后续进行完善,敬请期待:

2015-12-06 09:08:48 546

原创 Avro技术应用_5. 利用 Camus 来将 Avro 数据从 Kafka 拷贝到 HDFS -- 待完善

本节主要跟大家介绍一些 LinkedIn 的 Camus 项目以及它是如何与 Kafka 合作来处理数据的。在这里需要注意的是,Camus 目前已经不建议使用,取而代之的是 LinkedIn 2014年10月份发布的一款 Gobblin 系统。相比较Camus 系统来说,它有了很大程度上的改善,这些内容将会在本节跟大家一起探讨探讨:具体内容将会在后续进行完善,敬请期待:

2015-12-06 09:04:47 1316 1

原创 Hadoop中数据序列化的常用方式:SequenceFile, Avro, Thrift, ProtoBuff -- 待完善

本节将跟大家讨论一下 Hadoop 中常见的数据序列化场景:SequenceFile, Avro, Thrift, Protocol Buffers具体内容将会在后续进行补充,敬请期待

2015-12-06 08:57:47 1419

原创 Sqoop_1. 基本架构及数据操作 -- 待完善

关于 Sqoop 的架构,大家可以参考以下这篇博客:http://www.biaodianfu.com/sqoop.html今天我将跟大家着重介绍以下两部分内容:1. Spooq 1 vs Sqoop 22. Sqoop 中数据的输入和输出具体内容会稍后进行完善

2015-12-06 08:27:11 611

原创 Pig_10. 常见的数据简化模式 -- 待完善

目前只是先完善目录结构,内容会后续填充

2015-12-04 23:57:02 339

原创 Pig_9. 数据转换 -- 待完善

本课题主要涉及以下几点:   1. 结构化数据转换为分层数据2. 数据归一化3. 数据集成Inner JoinLeft outer JoinRight outer JoinFull outer JoinCartesian JoinReduce-side JoinReplicated Join4. 聚合5. 数据泛化-- data generalization

2015-12-04 23:55:13 394

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除