自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Spark基础学习(一)

Spark核心概念 – RDD(弹性分布式数据集)1、分布在集群中的只读对象集合(由多个Partition构成) 2、可以存储在磁盘或是内存 3、通过并行“转换”构成 4、失效后自动重构基本操作 transformations 1、可以通过scala集合和hadoop数据集构成新的RDD 2、通过已有的RDD产生新的RDD action 3、通过RDD计算得到一个值或是一组值

2017-11-28 16:10:52 290

原创 Storm消息的可靠性

什么是消息的完整性处理? 一个从 spout 中发送出的 tuple 会产生上千个基于它创建的 tuples。例如,有这样一个 word-count 拓扑:TopologyBuilder builder = new TopologyBuilder();builder.setSpout("sentences", new KestrelSpout("kestrel.backtype.com", 22

2017-08-18 16:20:05 454

原创 storm解析及wordcount简单实例

storm:分布式实时流计算框架 storm分为单机模式和集群模式。 在集群模式下: Storm由一个主节点和多个工作节点组成。主节点运行了一个名为“Nimbus”的守护进程,用于分配代码、布置任务及故障检测。每个工作节点都运行了一个名为“Supervisor”的守护进程,用于监听工作,开始并终止工作进程。Nimbus和Supervisor都能快速失败,而且是无状态的,这样一来它们就变得十分健

2017-08-15 16:51:19 1787

原创 HBase--对数据的增删查改操作

对hbase数据的操作

2017-08-04 14:38:47 8896

原创 Hbase学习以及hbase下表的增删查操作

HBase解析及运用

2017-08-03 09:06:28 581

原创 zookeeper---安装和配置

zookeeper下载地址:http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.9/zookeeper-3.4.9.tar.gz  zookeeper下载下载后解压在相应的目录下这里采用集群模式:解压成功后,进入zookeeper3.4.9/conf下有一个zoo_sample.cfg文件我们可以复制zoo_s

2017-07-23 16:57:31 271

原创 mapreduce--倒排索引

首先解释一下什么是倒排索引:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。就像我们利用百度搜索引擎去搜索一个东西,那么百度引擎就迅速的在它的服务器里找到有该关键字的文件,并根据频率和其他一些策略(如页面点击投票率等等)来给你返回结果。这个时候倒排索引就起了很大作用。接下来通过一个案例,来理解倒排索引:图3-11表示倒排索引最终的结果,左边方框表示被索引的

2017-07-23 15:40:49 460

原创 hadoop--mapreduce排序

我们知道mapper端的分组排序都是根据key的,我们通过几个实例来体现。#首先按照第一列升序排列,当第一列相同时,第二列升序排列#当第一列相同时,求出第二列的最小值一、使用mapreduce默认的排序算法使用MapReduce默认排序算法代码如下所示,在代码中我将第一列作为键,第二列作为值。package com.yc.hadoop.mapre

2017-07-20 20:40:17 490

原创 hadoop--combiner、partitioner学习

什么是Combiners?    combine操作是一个可选的操作,使用时需要我们自己设定每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下

2017-07-20 17:23:05 405 1

原创 在eclipse下将java任务提交到集群下执行的错误总结

今天在eclipse下调用hadoop执行java任务,这是的hadoop是2.7.3版本 电脑的系统为win7首先将linux下hadoop的我们需要配置文件放在src/main/resources下这里的配置文件都是从linux下下载下来的,写好程序开始运行,会报一个关于权限的错误,有两种解决方法:1、在window下配置一个HADOOP_USER_NAME环境变量,我

2017-07-20 10:19:29 304

原创 MapReduce工作原理

今天体验了一下mapreduce的运算过程,写出来总结一下。首先我们要了解两个节点一个是ResourceManager:整个运算过程资源调度(整个);另一个是NodeManager:每一个节点运算上面资源的管理(个体)我们通过通过命令sbin/start-yarn.sh 开启集群的资源节点  输入jps查看hadoop@master:/mysoftware/hadoop-2.7.3

2017-07-14 17:13:39 507

原创 HDFS简单运用--实现文件系统上文件的增删查下载上传

在eclipse上远程实现文件的增删查首先创建一个新的hadoop locations与虚拟机下的主机(master)相连 1、查看 和 删除文件示例如下:import java.io.InputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;impor

2017-07-12 16:12:00 517

原创 hadoop环境配置在eclipse上配置的总结

这几天配置hadoop以及启动的一些问题的总结。。。。        首先配置!!!    hadoop配置文件所在地:  $HADOOP_HOME/etc/hadoop/    解压hadoop2.7.3 jar包 和 jdk1.8.0 的jar包  配置环境变量 ~/.profile 文件下    export JAVA_HOME="/mysoftware/jdk1.8.0

2017-07-09 21:13:23 537

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除