自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Andrew的成长之路

希望能通过博客记录下自己在大数据路上的点点滴滴

  • 博客(85)
  • 资源 (1)
  • 问答 (2)
  • 收藏
  • 关注

原创 数据结构中Java常用的树

在学习树的过程中发现比较和的几遍文章,收藏至此2-3树http://www.cnblogs.com/yangecnu/p/Introduce-2-3-Search-Tree.html红黑树http://www.cnblogs.com/yangecnu/p/Introduce-Red-Black-Tree.htmlB 和 B+ 树https://www.cnblogs.com/vince...

2019-03-14 11:36:18 1008

原创 Flume 1.7.0 User Guide

以下是自己将 Flume 官网的英文文档翻译后的连接,仅作为自己记录,勿喷。http://note.youdao.com/share/?id=05cba23606d8552d05d93487ec7f7906&type=note#/

2017-07-04 21:27:59 429

转载 网络中的各层协议

应用层: (典型设备:应用程序,如FTP,SMTP ,HTTP)DHCP(Dynamic Host Configuration Protocol)动态主机分配协议,使用 UDP 协议工作,主要有两个用途:给内部网络或网络服务供应商自动分配 IP 地址,给用户或者内部网络管理员作为对所有计算机作中央管理的手段。实 现即插即用连网。 BOOTP (BOOTstrapProtocol) 引导程序协议/

2017-05-02 11:12:03 1265

原创 Elasticsearch 理解重点

1.输入数据分析: 问题是,传入文档中的数据怎样转化成倒排索引,查询文本怎样变成可被搜索的词?这个数据转化的过程被称为分析。你可能希望某些字段经语言分析器处理,使得car和cars在索引中被视为同一个。分析的工作由分析器完成,它由一个分词器 (tokenizer)和零个或多个标记过滤器 (token filter)组成,也可以有零个或多个字符映射器(character mapper)Lucene中

2016-11-15 15:38:44 609

原创 Scala 之 trait 关键字

这里的trait字面意思是特质或者特征,这个词翻译成特征比较合适。它的意义和java,c#中接口很类似。但是trait支持部分实现,也就是说可以在scala的trait中可以实现部分方法。下面我们以一个具体的例子来介绍下trait的使用。 我们的例子中定义了一个抽象类Aminal表示所有的动物,然后定义了两个trait Flyable和Swimable分别表示会飞和会游泳两种特征。 我们先看下A

2016-03-28 21:39:35 931

原创 用 Hadoop 构建电影推荐系统 之 总结

在看了这篇博文后,感觉学到了很多东西。讲推荐系统的构建思路http://blog.fens.me/hadoop-mapreduce-recommend/总结一下,有以下几点:怎样构建物与物之间的关联性。这篇博文是通过同现矩阵构造两部电影之间的关系的。怎样通过一个物体的受欢迎程度推算出另一个物体的受欢迎程度。这里是通过同现矩阵和评分矩阵相乘得到的推算结果。

2016-02-28 21:42:03 7477

原创 建立物品的同现矩阵的过程 和 同现矩阵*评分矩阵的意义

建立同现矩阵的过程在协同过滤算法中同现矩阵的建立是极其关键的一部,而在大多数的博客文章中大多都没有详细说明矩阵的建立过程。在此详细说明一下:原始数据如下所示:1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.03,104,4.03,105,4.53,107,5.04,101,5.04,

2016-02-28 16:29:37 9620 9

转载 Linux 之 awk 命令

阅读了一篇很好的博文,记录一下http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html

2016-02-21 16:25:42 381

转载 Hadoop 之 Combiner 与自定义 Combiner

一、Combiner的出现背景1.1 回顾Map阶段五大步凑在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步凑,如下图所示: 其中,step1.5是一个可选步凑,它就是我们今天需要了解的 Map规约 阶段。现在,我们再来看看前一篇博文《计数器与自定义计数器》中的第一张关于计数器的图: 我们可以发现,其中有两个计数器: Combine o

2016-02-03 19:47:14 786

原创 Hadoop 之 HDFS 的数据完整性

Hadoop 用户肯定都不希望系统在存储和处理数据时不会丢失或者损坏任何数据。接下来,我们来考究一下 HDFS 在为了保证数据完整性,所做的工作。总的来说,HDFS 会对写入的数据计算校验和,并在读取数据时验证校验和。datanode 负责收到数据后存储该数据及其校验和。datanode 的数据来源可分为两种,其一为是从客户端收到的数据,其二为从其他 datanode 复制来的数据。还有一种情况,正

2016-02-02 23:20:05 2229

原创 Hadoop 之 文件切分算法

文件切分算法主要用于确定 InputSplit 的个数,以及每个 InputSplit 对应的数据段。FileInputFormat 以文件为单位切分生成 InputSplit。对于新旧 MapReduce 有各自确定 InputSplit 大小的计算公式。在旧方法中,由以下三个属性值确定其对应的 InputSplit 的个数: 1. goalSize:根据用户期望的 InputSplit 数目计

2016-02-02 22:32:25 6821

原创 Hadoop 之 日志管理——应用在 YARN 中运行时的日志

背景:在写这篇博文前,自己一直没有弄明白一个问题,“在 Map 函数和 Reduce 函数中使用 System.out.print 打印日志时,输出内容在哪里显示?”。试了好多回,在 log/* 目录下找了很久都没有找到,并且尝试了很多次去找,都没有成功。这让我想通过此方法调试 Map/Reduce 函数以失败告终。最后,一次偶然的机会让我发现了关于日志的玄机。通过自己的观察和阅读参考书籍,终于弄明

2016-02-01 23:19:34 12066 1

原创 Hadoop 中 YARN和MV2以及ApplicationMaster

ApplicationMaster是什么?ApplicationMaster 是一个框架特殊的库,对于 Map-Reduce 计算模型而言有它自己的 ApplicationMaster 实现,对于其他的想要运行在 yarn上的计算模型而言,必须得实现针对该计算模型的 ApplicationMaster 用以向 ResourceManager 申请资源运行 task。比如运行在 yarn上的spark

2016-01-28 23:51:43 1313

原创 Hadoop 之 数据流——客户端与HDFS,namenode和datanode 之间的数据流

1.文件读取客户端通过调用 FileSystem 对象的 open() 方法来打开想读取的文件,对于 HDFS 来说,这个对象是分布式文件系统(DistributedFileSystem)的一个实例,如上图步骤1。DistributedFileSystem 通过使用 RPC 来调用 namenode ,获取文件的存储位置,以确定文件起始块的位置,如上图步骤2。namenode 返回文件所有组成块

2016-01-28 23:08:29 3773

原创 URI 和 URL 的区别

http://www.cnblogs.com/hust-ghtao/p/4724885.html

2016-01-27 22:40:18 363

原创 Hadoop 之 Shuffle 和排序---再理解

其实在我的一篇博文中,已经对Shuffle有了自己的总结,但是,回过头来再看的时候,觉得又可以再深层次的理解和记忆跟细节的东西。有必要再进行一次知识的输出—不知道在哪里看到的一句话,知识的输出是更残忍的输入。内容的理解来源于《Hadoop 权威指南(第三版)》,P226 页。一 总述MapReduce 确保每个 reducer 的输入都是按键排序的。Shuffle 这一过程可以说是系统执行排序的过程

2016-01-26 20:30:21 4276

转载 HBase 笔试题

以下试题是摘自互联网的基础上自己加了选项说明解释便于自己以后看时方便节省时间HBase来源于哪篇博文? C A The Google File System B MapReduce C BigTable D Chubby下面对HBase的描述哪些是正确的? B、C、D A 不是开源的 B 是面向列的 C 是分布式的 D 是一种NoSQL数据库HBase依靠()存储底层数据 A

2016-01-10 19:43:30 8150 1

原创 HBase 与 Hive 的区别和关系

看到了很多博文中对HBase 与 Hive 的区别做了一些说明,关于这个问题,在刚开始学习 HBase 和 Hive 时就有了这个问题在我脑海中,所以在看到这些博文后,忽然觉得茅塞顿开,可能还需要一段时间的消化和吸收,但是已经比之前明白了许多,写下这篇博文,供日后使用。一 由简入繁,通俗的说看到一篇博文,是这样理解的。hive是什么? 白话一点再加不严格一点,hive可以认为是map-reduc

2016-01-10 18:21:33 11937 1

原创 HBase 总结之基础入门

HBase0.98.0看到的一篇不错的入门博文: http://my.oschina.net/vigiles/blog/215885#OSC_h2_12HBase中对表的增删改查基础: http://javacrazyer.iteye.com/blog/1186881

2016-01-10 15:37:08 312

原创 HBase 总结之HBase作为共享源

简介:HBase作为共享源,即HBase作为输入源,同时作为输出源。通俗的讲,就是从HBase中读取数据,使用MapReduce处理过后,再将处理的结果存入HBase中去。下面直接上代码:package apache.org.myhbase.asshare;import java.io.IOException;import org.apache.hadoop.conf.Configuration;

2016-01-10 15:25:38 1014

原创 HBase 总结之HBase作为输出源

简介:HBase 作为输出源,即从其他存储介质中,使用MapReduce计算后将结果输出到HBase中。下面直接上代码:主程序package apache.org.myhbase.asoutput;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.had

2016-01-10 15:19:17 970

原创 HBase 总结之HBase作为输入源

简介:HBase 作为输入源,即从HBase中读取数据,使用MapReduce计算完成之后,将数据存储到其他介质中。下面直接上代码:主程序package apache.org.myhbase.asinput;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;import org

2016-01-10 15:09:39 807

转载 HBase 总结之 Java API 介绍

相关类与HBase数据模型之间的对应关系 java类 HBase数据模型 HBaseAdmin 数据库(DataBase) HBaseConfiguration 数据库(DataBase) HTable 表(Table) HTableDescriptor 列族(Column Family) Put 列修饰符(Column Qualifier) Get

2016-01-09 23:01:19 275

原创 HBase 总结之对表的基本操作

环境介绍: hadoop2.2.0+hbase0.98.16package apache.org.myhbase.dao;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apa

2016-01-09 22:28:17 418

原创 Linux 中的 sed 命令详解

背景:在学习 hadoop 的过程中,看了一篇博文,《Hadoop2.6.0|Hbase0.98.13的Mapreduce开发环境搭建》,在这篇文章中介绍把 HBase 目录下的 lib 目录中的 hadoop 的相关 jar 包替换成当前 hadoop 环境的 jar 包时,写了一个脚本,在这篇文章中,领率了 sed 命令的魅力所在。一 简介之所以称为sed是因为它是一个流编辑器(stream

2016-01-09 22:07:51 594

原创 HBase 开发环境搭建(Eclipse+Maven)

利用Eclipse+Maven构建开发环境

2015-12-30 22:41:56 13144

原创 HBase 常见错误-ERROR: Can't get master address from ZooKeeper; znode data == null解决办法

出现此问题可能是zookeeper不稳定造成的,采用的是虚拟机,经常挂起的状态,使用hbase的list命令出现下面错误,这个可能是hbase的稳定性造成的,解决办法有两种。这里使用第一种办法就解决了。解决方法:重启hbase 先 stop-hbase.sh 然后 start-hbase.sh

2015-12-30 21:57:17 2627

原创 HBase 集群环境搭建-基于Hadoop2.2.0

说明:此次事件用到的HBase为HBase0.96.0,搭建在Hadoop2.2.0版本上。一 安装前需检查内容:jdk,hadoop2.2.0 是否已正确安装;检查集群 SSH 环境是否成功;NTP:集群的时钟要保证基本的一致,看每台机器的时间是否一样, 如果你查询的时候或者是遇到奇怪的故障,可以检查一下系统时间是否正确。 设置集群各个节点时钟date -s “2014-04-18 1

2015-12-28 21:44:44 461

原创 关于 Storm 的一篇好文章

摘自叙明明的博客,从个人角度来开,是一篇很对胃口的文章。http://xumingming.sinaapp.com/138/twitter-storm%E5%85%A5%E9%97%A8/

2015-12-22 22:37:40 469

原创 Storm 安装参考,以及遇到问的问题

http://www.linuxidc.com/Linux/2012-08/68916.htm

2015-12-13 15:20:13 356

原创 hadoop 之 输出格式

之前讨论[Haoop的输入格式],当然对应肯定有输出的格式,这是很重要的,因为输出的内容正是我们想要的,处理的目的就是获取这些结果。(http://blog.csdn.net/andrewgb/article/details/49563627),OutputFormat类的结构文本输出1.TextOutputFormat默认的输出格式,把每条记录写为文本行;当把TextOutputFormat作

2015-11-05 22:09:29 1462

原创 hadoop 之 PathFilter -- 输入文件过滤器

1.指定多个输入在单个操作中处理一批文件,这是很常见的需求。比如说处理日志的MapReduce作业可能需要分析一个月内包含在大量目录中的日志文件。在一个表达式中使用通配符在匹配多个文件时比较方便的,无需列举每个文件和目录来指定输入。hadoop为执行通配提供了两个FileSystem方法:public FileStatus[] globStatus(Path pathPattern) throw I

2015-11-04 00:09:02 1414

原创 hadooop 之 FileInputFormat 类

1.FileInputFormat 类介绍FileInputFormat 是所有使用文件作为数据源的 InputFormat 实现的基类提供两个功能: 1.用于支出作业的输入文件的位置; 2.输入文件生成分片的实现代码段;类结构图: 2.通过 FileInputFormat 指定输入路径2.1 指定路径FileInputFormat 提供的四种静态方法:public static v

2015-11-01 23:02:43 1126

原创 hadoop 之 将若干小文件打包成顺序文件

1.Why在hadoop的世界里,处理少量的大文件比处理大量的小文件更加得心应手。其中一个原因是FileInputFormat生成的分块是一个文件或该文件的一部分。如果文件很小(“小”意味着比HDFS的块要小的多),并且文件数量很多,那么每次map任务只处理很少的输入数据,(一个文件)就会有很多的map任务,每次map操作都会造成额外的开销。请比较一下把1GB的文件分割成16个64MB的块与100K

2015-11-01 21:24:20 1086

原创 hadoop 之 MultipleInputs--为多个输入指定不同的InputFormat和Mapper

MultipleInputs 介绍默认情况下,MapReduce作业的输入可以包含多个输入文件,但是所有的文件都由同一个InputFormat 和 同一个Mapper 来处理,这是的多个文件应该是格式相同,内容可以使用同一个Mapper处理。但是,有可能这多个文件的数据格式不同,这是使用同一个Mapper来处理就显得不合适了。对于上述问题,MultipleInputs可以妥善处理,他允许对每条输入路

2015-11-01 17:36:38 4350

原创 hadoop 之 InputFormat类 --- NLineInputFormat 实例

NLineInputFormat 介绍文本由任务读取时,需要一种格式读入,KeyValueTextInputFormat 是InputFormat 类的一个具体子类,他定义的读取格式是这样的:一行是一条记录;读取后按照(key,value)对表示一条记录;跟默认的TextInputFormat一样,key是字符偏移量,value是一行的所有内容;N 表示一个Map可以处理的Record(记录

2015-11-01 15:45:15 1073

原创 hadoop 之 InputFormat类 --- KeyValueTextInputFormat 实例

KeyValueTextInputFormat 介绍文本由任务读取时,需要一种格式读入,KeyValueTextInputFormat 是InputFormat 类的一个具体子类,他定义的读取格式是这样的:一行是一条记录;读取后按照(key,value)对表示一条记录;一行中可能被分成多个区域(可能是制表符、逗号或者其他作为分隔符),第一个区域作为key,其他区域作为value。应用实例1.

2015-11-01 14:59:35 1165

原创 Hadoop 之 Writable , WritableComparable 接口

1.Writable序列化时重要的接口,很多Hadoop中的数据类型都实现来这个接口,常见的有:FloatWritable ,DoubleWritable ,IntWritable ,LongWritable ,MapWritable ,Text 等Class 都实现来中个接口。在Hadoop中定义一个结构化对象都要实现Writable接口,使得该结构化对象可以序列化为字节流,字节流也可以反序列

2015-10-26 23:33:11 1567

原创 Hadoop 中的 Combiner 过程

要点Combiner 所做的事情: 每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量;Combiner 的意义: 在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,当在发送给 Reduce 时对数据进行一次本地合并,减少数据传输量以提高网络IO性能;Combiner 的时机:

2015-10-25 20:32:14 3386

原创 Hadoop 中的 Partitioner 过程

要点hadoop 中的 Partitioner 阶段针对 Map 阶段输出的数据进行分区处理。Partitioner 对 key 进行分区处理,使拥有不同的 key 的数据被分到不同的 Reduce 中处理;其处理位置是在节点本身位置上;其处理意义在于可以在 Reduce 之前进行一次分类,提高效率。可以自定义 key 的分区规则,如数据文件包含不同的省份,而输出的要求是每个省份输出一个文件;

2015-10-25 19:54:45 1150

2007~2014年同等学历计算机综合真题及部分答案解析

包含2007年到2014年的考题以及部分答案解析,内容手工整理,实属不易,请珍惜

2018-03-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除