萧邦主-CSDN博客

原创大数据福利篇：大数据集成环境虚拟机的下载与使用(仅供个人学习使用)

内容简介一、集成环境虚拟机简介二、集成环境虚拟机包含大数据框架清单三、集成环境虚拟机下载四、集成环境虚拟机安装与配置步骤五、总结一、集成环境虚拟机简介前段时间有个小伙伴和我说在学习大数据的路上他认为最大的绊脚石是安装和配置各种大数据框架，很容易出错，这让我想起了自己刚学大数据那会也遇到了相同的情况，经常被各种大数据框架的安装和配置搞得焦头烂额的，所以整理出一个Linux虚拟机，里面安装和配置...

2019-08-23 15:14:09 2228 4

原创大数据杂谈篇：认识大数据生态(个人心得分享)

内容简介一、什么是大数据？二、走进大数据生态1.Hadoop2.Spark3.Hive4.HBase5.Kafka6.Flume7.Zookeeper三、总结一、什么是大数据？接触大数据也有一段时间了，从当初什么都不会的纯小白到现在已经基本入门(还是很弱)，在学习的道路上跌跌撞撞的，一部分原因是国内大数据的学习资料相比于其他IT技术要少很多，还有一部分原因是大数据涉及的知识比较多，知识点多，...

2019-08-07 08:29:35 3440 5

原创萧邦主的技术博客导航

本文是博客目录导航页，会持续更新，小标题就是对应文章标题，点击小标题会有传送门送到对应的文章处，方便阅读。

2019-06-28 02:24:44 2759 8

原创 HBase项目实战：HBase+Flume+Kafka+Hive+SSM实现电信大数据通话信息实时读写定位系统

内容简介

2019-08-21 11:30:14 4079 5

原创 HBase学习之路(八)：HBase协处理器+Hadoop的表操作行为日志监控案例实战

内容简介一、协处理的基本概念二、基于协处理器的行为表操作行为监控0.实战内容与思路1. 引如Maven的完整依赖2.创建MyRegionObserver类，继承BaseRegionObserver3.将代码打包并提交到HBase集群4.配置Hbase的配置文件5.测试并查看行为监控三、总结一、协处理的基本概念使用客户端的API，配合过滤器可以对数据进行限制，使得返回客户端的数据更加精确。如果...

2019-08-15 23:21:31 735

原创 HBase学习之路(七)：理解计数器的基本概念及计数器的使用

内容简介一、计数器的基本概念二、在Shell中创建并操作计数器三、单计数器四、多计数器五、总结一、计数器的基本概念我在前两篇文章中详细介绍了HBase的过滤器，这是HBase的高级特性之一，除了过滤器，HBase还有其他的高级特性，计数器便是其中一个。计数器(Counter)，常见于各种的收集信息统计系统的点击流统计，比如何种APP的热搜，或者在线广告意见，这些应用需要收集到日志文件中用于后...

2019-08-10 16:19:26 1669 1

原创 HBase学习之路(六)：理解并使用专用过滤器和附加过滤器(非常详细)

内容简介一、专用过滤器0.专用过滤器基本概念1.单列值过滤器2.单列排除过滤器3.前缀过滤器4.分页过滤器5.行键过滤器6.首次行键过滤器7.包含结束过滤器8.时间戳过滤器二、附加过滤器0.附加过滤器基本概念1.跳转过滤器2.全匹配过滤器三、总结一、专用过滤器0.专用过滤器基本概念在一文中已经介绍了HBase中过滤器的基本概念了，并且详细介绍HBase的第一类过滤器，比较过滤器，这一类过滤...

2019-08-01 18:43:03 860 3

原创 HBase学习之路(五)：理解过滤器的概念及比较过滤器的使用

内容简介一、过滤器简介1.过滤器的基本概念2.过滤器的层次结构3.比较运算符4.运算器二、比较过滤器的使用0.比较过滤器的基本概念1.行过滤器2.列族过滤器3.列名过滤器4.值过滤器三、总结一、过滤器简介1.过滤器的基本概念过滤器是HBase为客户端提供的一种高级API，是HBase的一种高级特性，它提供了非常强大的功能帮助用户处理表中的数据。HBase中读取数据的API主要是get()和...

2019-07-31 16:31:12 1434

原创 Spark学习之路(十二)：精通Spark核心编程之SparkContext原理剖析与核心源码分析

内容简介一、SparkContext原理剖析二、SparkContext核心源码分析三、总结一、SparkContext原理剖析SparkContext是Spark程序的入口点，我们在编写Spark程序代码的时候所做的第一件事情就是创建一个SparkContext的实例对象， SparkContext表示与Spark的连接群集，可用于在该群集上创建RDD，累加器和广播变量。值得注意的是每个J...

2019-07-28 23:56:41 306

原创 Spark学习之路(十一)：精通Spark核心编程之内核架构剖析

内容简介一、内核架构剖析二、总结一、内核架构剖析在Spark学习之路(二)：Spark核心术语详讲及作业提交流程一文中，已经详细介绍了Spark的核心术语，并且结合术语来简单粗略介绍了二、总结...

2019-07-26 15:32:40 481

原创 Spark学习之路(十)：Spark性能优化原理分点详细讲解与参数配置(纯干货)

内容简介一、Spark性能优化概览二、Spark性能优化分点讲解与参数配置1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化和Checkpoint操作4、合理使用序列化的持久化级别5、Java虚拟机垃圾回收调优6、提高程序执行的并行度7、使用广播操作共享数据8、数据本地化9、合理使用reduceByKey算子和groupByKey算子10、Shuffle调优三、总结一、Sp...

2019-07-23 00:41:41 839 1

原创 Spark学习之路(九)：使用分组取TopN算法配合Spark算子实现复杂业务逻辑案例实战

内容简介一、分组取TopN算法二、需求分析及实现逻辑三、需求分步骤实现详细代码讲解1.从数据源读取数据创建RDD2.处理原始数据，创建元组RDD3.将数据以班级id分组4.计算每个班级的平均分，并将平均分作为Key，班级ID作为Value创建RDD4.按照平均分降序排序并取出平均分前三的班级，创建RDD5.将Top3元组的Key与Value互换后使用join操作得到Top3班级所有学生的信息6.对...

2019-07-20 22:17:20 777 1

原创 Hadoop学习之路(十一):深入理解Hadoop三大核心组件之YARN

内容简介一、YARN的基本概述二、YARN的核心组件三、YARN应用运行机制四、YARN的调度机制五、总结一、YARN的基本概述二、YARN的核心组件三、YARN应用运行机制四、YARN的调度机制五、总结...

2019-07-17 01:15:20 978

原创 Spark学习之路(八)：分别使用Java与Scala实现Spark二次排序

内容简介一、Spark二次排序的概念二、实现二次排序的详细步骤(Java语言)三、二次排序代码演示1.Java版本2.Scala版本四、总结一、Spark二次排序的概念排序操作是数据处理过程中的常用操作步骤，Spark提供了诸如sortBy算子和sortByKey算子来实现排序，但是存在一些不足的地方，此类算子只能针对一个排序的依据进行排序，比如说sortByKey算子仅仅只能根据Key来排...

2019-07-13 15:54:45 458

原创 Spark学习之路(七)：RDD窄依赖与宽依赖深度剖析

内容简介一、窄依赖与宽依赖剖析二、窄依赖与宽依赖的区别三、窄依赖算子与宽依赖算子四、总结一、窄依赖与宽依赖剖析在之前的文章中曾对RDD进行剖析，详情看Spark学习之路(三)：剖析RDD的概念及用三种方式创建RDD，知道RDD与RDD之间是存在依赖关系(也叫血缘关系)的，每当RDD调用transform算子生成另一个RDD时，这两个RDD之间就存在依赖关系，事实上，还可以对两个RDD之间的依...

2019-07-11 14:58:12 472 1

原创 Spark学习之路(六)：深入剖析与使用RDD的持久化机制和Checkpoint机制

内容简介一、持久化机制Persist二、检查点机制Checkpoint三、持久化与Checkpoint的区别四、代码演示五、总结一、持久化机制Persist所谓RDD的持久化，其实就是对RDD进行缓存，它是Spark重要的优化手段之一。为什么需要对RDD进行缓存呢？这与Spark作业的执行机制有关，我们知道，Spark程序只有遇到action算子的时候才会执行程序，具体的执行算法大致如下：S...

2019-07-10 16:51:38 849

原创 Spark学习之路(五)：使用Java和Scala编写按词频降序排序的WordCount程序

内容简介一、按词频降序排序的WordCount思路分析二、使用Java编写程序三、使用Scala编写程序四、总结一、按词频降序排序的WordCount思路分析WordCount，也叫词频统计程序是大数据里面一个最简单的入门程序，但是“麻雀虽小，五脏俱全”，WordCount涵盖了大数据处理的核心思想，因而非常之重要。而加入了排序功能之后的WordCount就更加具有价值了。现在分析按词频降序...

2019-06-29 15:50:02 1254

原创 Spark学习之路(四)：深度图解Spark算子运作原理

内容简介一、Spark算子的概念二、Spark常用算子概览1. transform算子2.action算子三、Spark常用算子原理图解1.transform算子2.action算子四、总结一、Spark算子的概念在Spark中提供了大量的算子来操作RDD，所谓算子可以理解为操作RDD的方法或者函数。算子大致分为两种类型：transform算子和action算子，所谓transform算子是...

2019-06-28 02:17:27 1538 1

原创 Spark学习之路(三)：剖析RDD的概念及用三种方式创建RDD

内容简介一、RDD的基本概念二、创建RDD1.使用三种方式创建RDD2.使用Java演示三种方式创建RDD3.使用Scala演示三种方式创建RDD三、总结一、RDD的基本概念RDD ,弹性分布式数据集，是分布式内存的一个抽象概念，是Spark中最为基本也最为重要的一个抽象，如果说Java的哲学是“万物皆对象”的话，可以笼统地认为Spark的哲学是“万物皆RDD”，这句话的意思是在Spark...

2019-06-26 00:19:00 824

原创 Spark学习之路(二)：Spark核心术语详讲及作业提交流程

内容简介一、初识Spark二、Spark核心术语详讲三、Spark作业提交流程四、总结一、初识SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于...

2019-06-25 00:41:39 516

原创 Spark学习之路(一)：Spark基于Standalone模式完全分布式搭建集群

Spark完全分布式搭建一、Spark集群的部署方式1.Standalone模式2.Spark On YARN模式3.Spark On Mesos模式二、基于Standalone模式部署集群1.下载并解压Spark安装包2.配置环境变量3.置Spark的配置文件4. 启动集群三、测试集群四、总结一、Spark集群的部署方式1.Standalone模式与MapReduce1.0框架类似，Sp...

2019-06-23 22:54:08 1413

原创 Hadoop学习之路(十):MapReduce进阶之链式MapReduce操作实战

内容简介一、链式MapReduce操作的概念二、链式MapReduce实战案例1. 需求分析2. 数据准备3. 代码编写4. 打包上传5. 测试三、总结一、链式MapReduce操作的概念在以往的MapReduce案例中，无论是简单的WordCount还是比较复杂的使用MR统计社交共同好友的MapReduce作业都仅仅包含一个Map类和Reducer类，这就使得MR作业在实现某些复杂的程序时...

2019-06-22 15:15:53 497

原创 Hadoop学习之路(九):数据倾斜的成因及其解决方法(详细代码演示)

内容简介一、数据倾斜概述1. 什么是数据倾斜2. 数据倾斜的成因二、数据倾斜的解决方法1. 重新定义分区类2. 重新定义Key三、代码演示1.构建Java工程，添加Maven支持2. 重新定义分区类代码演示(1).第一阶段作业(2).第二阶段作业3. 重新定义Key代码演示(1).第一阶段作业(2).第二阶段作业四、总结一、数据倾斜概述1. 什么是数据倾斜在使用Hadoop进行数据处理的过程...

2019-05-06 12:13:55 1051

原创 HBase学习之路(四):理解HBase的基本架构

内容简介一、HBase表结构剖析1. 行健2. 列族3. 列4. 单元格5. 时间戳二、HBase表数据模型三、HBase核心架构1. HMaster2. HRegionServer3. ZooKeeper四、HBase读写流程1. 读流程2. 写流程五、总结一、HBase表结构剖析HBase是面向列的非关系型数据库，可以简单地总结，列是HBase最基本的单位，一行由多列组成。具体组成结构如下...

2019-05-05 19:30:48 567

原创 HBase学习之路(三):Java客户端的批处理和扫描操作详讲

内容简介一、概述二、操作前的准备三、批处理操作四、扫描1.Scan操作2.缓存与批量处理五、总结一、概述在前面已经介绍了，使用JavaAPI对HBase的数据进行检索、添加和删除的操作，但是那些操作都是基于一行或者一个列表的操作，这一节将介绍如何使用JavaAPI批量处理跨多行的不同操作。介绍完批处理操作后会介绍扫描技术，这是HBase中一个非常重要的操作，类似于关系型数据库中的游标，使用到...

2019-05-04 18:52:54 595

原创 HBase学习之路(二):Java客户端的CRUD操作详讲

内容简介一、概述二、操作前的准备三、put操作四、get操作五、delete操作六、总结一、概述HBase作为一个数据库最常见的交互方式是使用JavaAPI与其交互，HBase提供给客户端非常丰富的JavaAPI对数据库进行增删改查等操作。事实上，HBase的主要客户端接口是由org.apache.hadoop.hbase.client包中的HTable提供，我们可以通过这个类向HBase读...

2019-05-04 00:31:51 499

原创 IDEA构建Maven项目报错:Exception in thread "main" java.lang.NoClassDefFoundError

内容简介一、异常详情二、产生的原因三、解决办法一、异常详情 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration at com.hadoop.friend.MainAppStepOne.main(MainAppStepOne.java:19) ...

2019-05-02 17:03:39 10854

原创 Hadoop学习之路(八):MapReduce进阶案例之寻找社交共同好友

内容简介一、需求分析二、算法分析三、编写代码1.构建Java工程，引入Maven支持2.编写第一阶段MapReduce作业代码3.编写第二阶段MapReduce作业代码4.将作业代码打包并提交到集群5.将friend.txt上传至HDFS6.运行第一阶段作业，查看结果7.运行第二阶段作业，查看结果四、总结一、需求分析社交软件的盛行让我们的生活越来越便捷，我们经常使用社交软件添加好友，即每个人...

2019-04-27 14:57:47 869 3

原创 HBase学习之路(一):HBase的基本概念与HBase完全分布式搭建

内容简介一、初识HBase1.什么是HBase2.为什么会诞生HBase3.HBase与Hive的区别二、HBase完全分布式的搭建1.安装前须知2.下载并解压HBase安装包3.配置环境变量4.配置HBase的配置文件5.启动集群并测试三、总结一、初识HBase1.什么是HBaseHBase是一个分布式的、面向列的建立在Hadoop之上的开源非关系型数据库，该技术来源于 Fay Chan...

2019-04-25 21:06:25 484 4

原创 Hadoop学习之路(七):理解Hadoop三大核心组件之MapReduce

内容简介一、MapReduce简介二、MapReduce核心阶段1. Map2. Shuffle3. Reduce三、MapReduce作业运行过程1. 作业提交2. 作业初始化3. 任务分配4. 任务执行5. 作业完成四、总结一、MapReduce简介MapReduce是一种编程模型，用于大规模数据集的并行运算，它是Hadoop的三大核心组件之一，承担着Hadoop的计算工作。概念"Map（...

2019-04-24 23:26:15 1133

原创 Spring学习之路(三):Bean完整的生命周期及使用后处理Bean产生代理增强特定方法

内容简介一、Spring Bean完整的生命周期流程二、演示Bean完整的生命周期三、使用后处理Bean产生代理增强方法四、总结一、Spring Bean完整的生命周期流程Instantiate 实例化Bean，这一步是使用Bean的构造方法实例化Bean，可以是无参构造方法也可以是有参构造方法。Populate properties 如果该Bean有属性且已经声明让Spring注入则会...

2019-04-22 17:58:20 537

原创 Spring学习之路(二):Spring工厂类简介与Bean的三种实例化方式

内容简介一、Spring工厂类介绍二、SpringBean的三种实例化1. 使用构造器实例化Bean2. 使用静态工厂实例化Bean3.使用实例工厂实例化Bean三、总结一、Spring工厂类介绍如图，这是Spring内部完整的工厂类继承关系图，其中有四个类需要了解：BeanFactory 这个接口已经被淘汰，不被推荐使用。这是旧版的Spring提供的工厂接口，功能并没有完善，碍于当时硬...

2019-04-21 11:10:45 454

原创 Spring学习之路(一):理解Spring IOC的实现原理及入门案例

内容简介一、Spring IOC的概述二、Spring IOC的底层原理实现三、Spring IOC入门小案例1.构建JavaWeb工程，添加Maven支持2.编写业务代码3.创建并编写Spring的配置文件4.编写测试代码测试程序四、总结一、Spring IOC的概述控制反转（Inversion of Control，缩写为IoC），是Spring的核心思想之一，是面向对象编程中的一种设计原...

2019-04-20 16:02:03 457

原创 Hadoop学习之路(六):理解Hadoop三大核心组件之HDFS

内容简介一、分布式文件系统简介二、HDFS的设计三、HDFS的概念1.数据块2.namenode、datanode和secondarynamenode3.HDFS的高可用四、HDFS的常用命令1. hdfs namenode -format2. hdfs dfs3. hdfs dfsadmin五、HDFS的读写流程1. HDFS的读取1. HDFS的写入六、总结一、分布式文件系统简介一般而言...

2019-04-19 22:13:47 1289

原创 Hadoop学习之路(五):Hadoop交互关系型数据库(MySQL)

内容简介

2019-04-18 14:24:51 1391

原创 Hive学习之路(四):Hive内置函数介绍与实现WordCount

内容简介一、Hive内置函数介绍二、Hive常用内置函数介绍1.数值计算函数2.字符串操作函数3.日期函数4.聚合函数5.表生成函数三、使用Hive函数完成WordCount1.创建表并将数据导入2.编写SQL句并执行四、总结一、Hive内置函数介绍Hive为编程人员提供了大量的内置函数，为编程提供了极大的便利，进入hive shell下输入命令：show functions可查看所有Hive...

2019-04-16 23:14:35 686

原创 Hive学习之路(五):使用自义定函数UDF完成日志数据统计

内容简介一、Hive自定义函数UDF简介二、数据准备1.分析日志数据2.需求3.创建原始数据表并导入数据三、使用自义定函数完成日志数据统计1.创建Java工程，添加Maven支持2.创建类LogParser并编写代码3.将代码打包并提交4.执行程序查看结果四、总结一、Hive自定义函数UDF简介上一节中，介绍了许多Hive的内置函数，并使用Hive的内置函数实现了WordCount，Hive的...

2019-04-16 23:08:17 1100

原创 Hadoop学习之路(四)：Hadoop排序之全排序的原理及实现

Hadoop实现全排序一、全排序简介二、全排序的原理三、准备数据四、全排序的实现1.创建Java工程，添加Maven支持2.编写Map类3.编写Reduce类4.编写作业主类5.将代码打包提交到集群6.运行程序五、总结一、全排序简介全排序其实就是全局排序，就是使得所有数据按序排列输出，和我们平常做的给一个数组排序没有什么区别，唯一的区别就是数据量的不同，这里涉及的数据量是TB级别的，这就意味着...

2019-04-15 14:09:42 2634

原创 Hive学习之路(三):hiveserver2的启动与使用

操作内容简介一、hiveserver2简介二、使用hiveserver2服务1.启动hiveserver2服务2.启动beeline连接server3.使用JDBC协议连接server1.构建Java工程，添加Maven支持2.创建并编写HiveServerTest类三、总结一、hiveserver2简介Hive在生产上是不需要部署集群的，操作Hive只需要通过它提供的客户端即可，Hive提供...

2019-04-13 18:22:48 19992 5

原创 Hive学习之路(二):Hive表操作详讲

操作内容简介一、操作前的准备二、Hive操作详讲1. 创建数据库2. 查看所有数据库/表3. 在Hive上直接操作HDFS4. 在Hive上直接执行终端命令5. 创建数据表/查看表的信息1.普通管理表2.分区表3.桶表4.外部表6. 导入数据进表1.普通管理表2.分区表3.桶表4.外部表7.复制表1.仅复制表结构2.复制表结构及数据8. 创建视图三、总结一、操作前的准备本演示的所有操作所用的H...

2019-04-13 12:18:32 960

团购网站标签生成项目的用户评分原始数据(一万条左右)

空空如也