Even710-CSDN博客

原创 OpenCV4人脸识别在Linux，Windows和Android上的安装

OpenCV4版本为4.0.1。Windows平台下载win pack，如果浏览器下载太慢，可以使用迅雷下载。直接安装把build/java/opencv-401.jar包导入到自己项目的lib中，如果是maven 项目，则把它打包成maven依赖。# maven installmvn install:install-file -Dfile=opencv-401.jar -D...

2019-02-22 17:29:44 1243

原创 Kafka

文章目录Kafka介绍Kafka介绍ApacheKafka®是一个分布式流媒体平台。流媒体平台有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。记录发生时处理流。Kafka通常用于两大类应用：构建可在系统或应用程序之间可靠获取数据的实时流数据管道构建转换或响应数据流的实时流应用程序Kafka有四个核心API：生产者（Produce...

2019-02-12 18:50:10 282

原创 HBase-MR操作

HBase擅长存储数据，但不擅长计算分析数据，但是它可以借用其他组件（mapreduce/spark），使用官方提供的hbase-api来实现计算分析数据功能。hbase-server.jar下面官方提供的一个Hbase操作MR的例子，此例子作用是对一张表的rowkey进行计数。解决HBase与MapReduce的依赖包问题。# 显示hbase需要的MapReduce Jar包hba...

2019-01-31 00:42:05 1315 1

文章目录Apache HBase简介HBase架构HBase读取数据流程HBase安装部署Hbase Shell命令基本命令表操作Apache HBase简介Apache HBase™是Hadoop数据库，是一个分布式，可扩展的大数据存储。当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。A...

2019-01-30 18:33:03 409

原创 Azkaban使用

文章目录Azkaban简介Azkaban VS OozieAzkaba安装部署Azkaban使用Azkaban简介官网：https://azkaban.github.io/Azkaban是在LinkedIn上创建的批处理工作流作业调度程序，用于运行Hadoop作业。Azkaban通过作业依赖性解决顺序问题，并提供易于使用的Web用户界面来维护和跟踪您的工作流程。兼容任何版本的Hadoo...

2019-01-29 11:50:07 538

原创 Sqoop入门

文章目录Sqoop简介Sqoop安装部署Sqoop使用import命令Sqoop简介官网：http://sqoop.apache.org/Apache Sqoop（TM）是一种工具，用于在Apache Hadoop和结构化数据存储（如关系数据库）之间高效传输批量数据。Sqoop于2012年3月成功从孵化器毕业，现在是一个顶级Apache项目：更多信息最新的稳定版本是1.4.7（下载，...

2019-01-28 22:45:47 123

原创 Flume框架

文章目录Flume概述Flume安装部署Flume概述官网地址：http://flume.apache.org/Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流式数据流的简单灵活的架构。它具有可靠性机制和许多故障转移和恢复机制，具有强大的容错性。它使用简单的可扩展数据模型，允许在线分析应用程序。Flume的中文翻译是“引水槽”，是用于引导水的，...

2019-01-28 16:38:59 202

原创 Solr全攻略

文章目录Solr简介Solr安装使用Solr部署模式Solr简介官网：https://lucene.apache.org/solr/Solr是基于Apache Lucene ™构建的流行，快速，开源的企业搜索平台。Solr是一个Java Web应用，可以运行在任何主流Java Servlet引擎中。下面来看一个Solr服务器的主要软件构成：Solr基于已有的XML、JSON和HTT...

2019-01-28 10:51:15 12694

原创 Dubbo攻略

文章目录Dubbo介绍背景单一应用架构垂直应用架构分布式服务架构流动计算架构需求架构连通性健壮性伸缩性Dubbo介绍（Dubbo介绍转自官网 http://dubbo.apache.org/zh-cn/docs/user/preface/architecture.html）背景随着互联网的发展，网站应用的规模不断扩大，常规的垂直应用架构已无法应对，分布式服务架构以及流动计算架构势在必行，亟...

2019-01-12 15:45:19 350

原创 Hive全方面攻略

文章目录概述Hive优缺点Hive架构安装部署Hive测试操作数据概述Apache Hive™数据仓库软件有助于使用SQL读取，编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。简单点来说，hive是为了替代hadoop的mapreduce。从数据计算的角度来说：mapreduce分布式计算难度大，而hi...

2019-01-11 15:56:55 375

原创 MapReduce数据压缩

MapReduce数据压缩Hadoop三个阶段Hadoop数据压缩压缩的基本原则MR支持的压缩编码编码/解码器压缩性能使用方式map端输出压缩reduce端输出压缩Hadoop三个阶段1）分布式文件系统HDFS用于存储宏大数据量文件。2）分布式编程框架MapReduce用于分布式计算海量数据。3）yarn框架分布式调度平台，用于为MapReducer合理分配资源。Hadoop数据压...

2019-01-10 15:35:45 515

原创 Zookeeper集群

文章目录Zookeeper简介什么是Zookeeper？Zookeeper的功能Zookeeper工作机制Zookeeper应用场景Zookeeper安装zookeeper分布式安装Zookeeper命令行Zookeeper选举机制为什么ZK集群需要奇数台服务器？服务器动态上下线感知Zookeeper简介Apache Zookeeper：把Zookeeper拆开来读，zoo-keeper，即动...

2019-01-05 22:04:11 979

原创 MapReduce工作流程

MapReduce工作流程图流程步骤：生成驱动Jar包，上传到Yarn集群；hadoop jar jar文件启动客户端，Yarn集群根据切片，计算MapTask数，分配NodeManager资源；通过默认TextInputFormat方式传输数据到MapTask节点，进入Map阶段；经逻辑运算后，通过outputcontroller把数据写入到环形缓冲区&amp;lt;k,v&amp;gt;；达到...

2019-01-02 21:02:27 543

原创 MapTask运行机制

MapTask并行度前文提到MapReduce程序包含两个阶段——Map阶段和Reduce。在提交一个Job任务时，在Map阶段会根据提交的任务，来决定需要开启多少个MapTask来执行。split表示针对每一个文件的单独切片，即，每一个split，会分配到一个maptask进行处理，而默认情况下，split的大小和block的大小一致，即128M，有多少个block，就需要开启多少个Map...

2018-12-28 11:21:43 1129

原创 MapReduce编程及Yarn集群

MapReduce是Hadoop的分布式运算组件，是Hadoop数据分析应用的核发框架，主要分为两部分，Map和Reduce。Map阶段把数据拆分处理输出，Reduce把Map阶段输出的数据整合处理。MR程序分成三阶段：Map阶段，Reduce阶段，Driver阶段。...

2018-12-27 11:38:37 267

原创 RPC框架与MR框架

手写RPC框架客户端与NameNode通信的RPC原理，本篇手写RPC框架模拟客户端获取指定路径的元数据。hdfs读写文件机制：https://blog.csdn.net/weixin_37581297/article/details/84633121第一步，pom.xml&amp;lt;dependency&amp;gt; &amp;lt;groupId&amp;gt;org.apache.hadoop...

2018-12-11 13:48:07 238

原创 NameNode和DataNode工作机制

文章目录NameNode工作机制NameNode工作机制NameNode启动时，会把fsimage和edits 001加载到内存，并对fsimage进行合并，此时的fsimage是最新的镜像文件。client执行增删改操作时，会使元数据发生变化，新建一个edits 002记录这些变化，此时的fsimage还是只有edits 001的记录。当edits 002日志文件满了或者是触发了ch...

2018-12-04 09:06:28 601 1

原创图解HDFS读写文件机制

HDFS读写文件HDFS写文件过程HDFS写文件过程关键点：hadoop2.x版本默认块大小为128M，所以预处理文件时，对200M的文件分块就是分成128M和72M。第二步前，namenode需要根据client传递过来的消息来判断是否可以写文件，判断依据有是否存在目录，是否已存在文件等。namenode选取datanode时可以遵循机架感知策略来选择机器。默认情况没有开启，是随机...

2018-11-29 16:16:44 429

原创 java实现操作Hadoop

java api for hadoop基本操作文件读写基本操作import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.junit.Test;import org.junit.jupiter.api.BeforeEach;import org.junit.jupiter.ap...

2018-11-22 22:13:48 1052

原创 winodws使用Hadoop

windows java使用Hadoop需要的jar包在hadoop目录/share/hadoop/中，有common、hdfs文件夹等hadoop-common-2.8.4.jarhadoop-hdfs-2.8.4.jar及它们的依赖包，依赖包在各自目录的lib中。如果报下面错误：Cannot load filesystem: java.util.ServiceConfigurati...

2018-11-21 17:31:05 177

原创 Hadoop集群配置

Hadoop集群准备工具：虚拟机：VMware Workstation 12jdk：jdk-8u141-linux-x64.tar.gz服务器ISO：CentOS-7.isohadoop:hadoop-2.8.4.tar.gzssh工具：MobaXtermVMWare虚拟机建三台CentOS，网络配置为NAT。hd-even-01 hd-even-02 hd-even-03关闭...

2018-11-20 09:12:19 219

Even710的博客