gongrui_59-CSDN博客

原创 Spark基础学习（一）

Spark核心概念 – RDD（弹性分布式数据集）1、分布在集群中的只读对象集合（由多个Partition构成） 2、可以存储在磁盘或是内存 3、通过并行“转换”构成 4、失效后自动重构基本操作 transformations 1、可以通过scala集合和hadoop数据集构成新的RDD 2、通过已有的RDD产生新的RDD action 3、通过RDD计算得到一个值或是一组值

2017-11-28 16:10:52 290

原创 Storm消息的可靠性

什么是消息的完整性处理？一个从 spout 中发送出的 tuple 会产生上千个基于它创建的 tuples。例如，有这样一个 word-count 拓扑：TopologyBuilder builder = new TopologyBuilder();builder.setSpout("sentences", new KestrelSpout("kestrel.backtype.com", 22

2017-08-18 16:20:05 454

原创 storm解析及wordcount简单实例

storm：分布式实时流计算框架 storm分为单机模式和集群模式。在集群模式下： Storm由一个主节点和多个工作节点组成。主节点运行了一个名为“Nimbus”的守护进程，用于分配代码、布置任务及故障检测。每个工作节点都运行了一个名为“Supervisor”的守护进程，用于监听工作，开始并终止工作进程。Nimbus和Supervisor都能快速失败，而且是无状态的，这样一来它们就变得十分健

2017-08-15 16:51:19 1787

原创 HBase--对数据的增删查改操作

对hbase数据的操作

2017-08-04 14:38:47 8896

原创 Hbase学习以及hbase下表的增删查操作

HBase解析及运用

2017-08-03 09:06:28 581

原创 zookeeper---安装和配置

zookeeper下载地址：http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.9/zookeeper-3.4.9.tar.gz zookeeper下载下载后解压在相应的目录下这里采用集群模式：解压成功后，进入zookeeper3.4.9/conf下有一个zoo_sample.cfg文件我们可以复制zoo_s

2017-07-23 16:57:31 271

原创 mapreduce--倒排索引

首先解释一下什么是倒排索引：根据单词，返回它在哪个文件中出现过，而且频率是多少的结果。就像我们利用百度搜索引擎去搜索一个东西，那么百度引擎就迅速的在它的服务器里找到有该关键字的文件，并根据频率和其他一些策略（如页面点击投票率等等）来给你返回结果。这个时候倒排索引就起了很大作用。接下来通过一个案例，来理解倒排索引：图3-11表示倒排索引最终的结果，左边方框表示被索引的

2017-07-23 15:40:49 460

原创 hadoop--mapreduce排序

我们知道mapper端的分组排序都是根据key的，我们通过几个实例来体现。#首先按照第一列升序排列，当第一列相同时，第二列升序排列#当第一列相同时，求出第二列的最小值一、使用mapreduce默认的排序算法使用MapReduce默认排序算法代码如下所示，在代码中我将第一列作为键，第二列作为值。package com.yc.hadoop.mapre

2017-07-20 20:40:17 490

原创 hadoop--combiner、partitioner学习

什么是Combiners？ combine操作是一个可选的操作，使用时需要我们自己设定每一个map可能会产生大量的输出，combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。combiner最基本是实现本地key的归并，combiner具有类似本地的reduce功能。如果不用combiner，那么，所有的结果都是reduce完成，效率会相对低下

2017-07-20 17:23:05 405 1

原创在eclipse下将java任务提交到集群下执行的错误总结

今天在eclipse下调用hadoop执行java任务，这是的hadoop是2.7.3版本电脑的系统为win7首先将linux下hadoop的我们需要配置文件放在src/main/resources下这里的配置文件都是从linux下下载下来的，写好程序开始运行，会报一个关于权限的错误，有两种解决方法：1、在window下配置一个HADOOP_USER_NAME环境变量，我

2017-07-20 10:19:29 304

原创 MapReduce工作原理

今天体验了一下mapreduce的运算过程，写出来总结一下。首先我们要了解两个节点一个是ResourceManager:整个运算过程资源调度（整个）；另一个是NodeManager：每一个节点运算上面资源的管理（个体）我们通过通过命令sbin/start-yarn.sh 开启集群的资源节点输入jps查看hadoop@master:/mysoftware/hadoop-2.7.3

2017-07-14 17:13:39 507

原创 HDFS简单运用--实现文件系统上文件的增删查下载上传

在eclipse上远程实现文件的增删查首先创建一个新的hadoop locations与虚拟机下的主机（master）相连 1、查看和删除文件示例如下：import java.io.InputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;impor

2017-07-12 16:12:00 517

原创 hadoop环境配置在eclipse上配置的总结

这几天配置hadoop以及启动的一些问题的总结。。。。首先配置！！！ hadoop配置文件所在地： $HADOOP_HOME/etc/hadoop/ 解压hadoop2.7.3 jar包和 jdk1.8.0 的jar包配置环境变量 ~/.profile 文件下 export JAVA_HOME="/mysoftware/jdk1.8.0

2017-07-09 21:13:23 537

gongrui_59的博客