自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 基于docker搭建单机ambari+hdp环境

基于docker安装ambari+hdp环境,适用于测试环境;

2023-01-17 10:14:38 557

原创 docker搭建单节点CDH环境

基于docker搭建单机cdh环境,仅用于测试

2023-01-17 09:35:37 437

原创 多Module依赖_配置文件问题

问题描述:提示:一个项目中有多个Module, Module之间有一定的依赖关系,打包后jar内没有被依赖的Module内Resource的配置文件;本地运行也无法通过被依赖Module内的方法读取被依赖的resource的配置文件!!!原因分析:提示:这里填写问题的分析:由于在项目中配置文件的文件名相同,在打包的时候相同的resource内的文件会被覆盖.本地运行也无法通过被依赖Module内的方法读取被依赖的resource的配置文件.解决方法:避免依赖Module中出现相同的配置文

2021-06-17 15:51:39 293

原创 JSchUtils工具类

JSchUtils工具用来远程连接linux执行命令和传递文件import com.jcraft.jsch.*;import java.io.ByteArrayOutputStream;import java.io.File;import java.io.FileInputStream;import java.util.ArrayList;import java.util.List;import java.util.Properties;import org.slf4j.LoggerFac

2021-02-06 13:32:25 2064

原创 Sqoop-学习笔记

文章目录前言1.Sqoop简介(1.4.6)2.原理3.JDBC驱动4.SqoopDemo4.1 MySQL->HDFS4.2 RDBMS -> HIVE4.3 RDBMS -> HBase4.3 HIVE / HDFS -> RDBMS5.脚本编写总结前言本文分享本菜鸟的Sqoop学习笔记。Sqoop能够实现Hadoop(hive)与传统数据库之间的数据传递。主要用于数仓(Hive)与数据库之间的数据传输。本菜鸟QQ:599903582笨鸟先飞,熟能生巧 ~比心心 ~

2021-01-12 09:46:06 1465 3

原创 Ambari2.7.4+HDP3.1.4安装-Centos7

文章链接:安装文章链接

2021-01-09 14:27:13 219

原创 CDH安装手册(自整理)

文章目录前言1.组件版本2.集群规划(三台服务器为例)3.配置linux静态IP4.修改hosts文件,并实现免密登录5.创建集群分发脚本6.关闭防火墙和SELINUX(所有节点)7.配置NTP时钟同步8.安装jdk和mysql9.搭建本地yum源并安装10.在数据库中建库11.启动服务12.访问网页及集群操作总结前言Cloudera’s Distribution Including Apache Hadoop。简称CDH,解决了原生Apache hadoop版本管理混乱、部署过程繁琐、升级过程复杂、

2021-01-09 14:20:59 2442 3

原创 Hive-学习笔记

文章目录前言(Hive 1.2.1)1.概念2.优缺点3.Hive架构原理4.运行机制5.Hive与数据库的比较6.Hive数据类型7.DDL数据定义8.DML数据操作9.查询10.函数11.压缩12.存储13.优化14.练习Demo总结前言(Hive 1.2.1)本文分享本菜鸟的Hive学习笔记Hive广泛应用于大数据数仓项目,是大数据必学技术之一。文章涉及的内容比较多,最好参照目录直接跳转。本菜鸟QQ:599903582比心心 ~提示:以下是本篇文章正文内容,下面案例可供参考1.概

2021-01-08 16:24:59 322

原创 ElasticSearch-学习笔记

文章目录前言1.简介2.Es与MySql的对比3.Es与其他数据存储组件比较4.特点5.倒排索引6.B+Tree7.ElasticSearch中的基本概念8.ElasticSearchRepository和ElasticSearchTemplate的使用9.FSCrawler(ElasticSearch的FS搜寻器。)10.RESTful API11.中文分词12.动态同义词(自定义)13.JavaAPI(实现ES的工具类,采用了高级API)总结前言本文分享本菜鸟的ElasticSearch笔记。内

2020-12-28 21:57:05 1457 3

原创 Git-学习笔记

文章目录前言1.简介2.版本管理系统能干什么?3.工具下载4.GitHub5.Git命令行模式设置6.Git命令7.冲突解决8.结构图9.工作时步骤10.GitHub操作11.Git工作流12.分支类型13.Idea配置Git总结前言本文分享本菜鸟的Git学习笔记,内容相对比较简单。Git可以说是工作中必不可少的工具,让我们一起来学习一下。本菜鸟QQ:599903582笨鸟先飞,熟能生巧 ~比心心 ~提示:以下是本篇文章正文内容,下面案例可供参考1.简介Git是目前世界上最先进的分布式

2020-12-27 18:24:20 1003

原创 Redis-学习笔记分享

文章目录前言1.NoSQL概述2.NoSQL适用场景3.NoSQL不适用场景4.NoSQL有哪些?5.Redis简介6.应用场景7.Redis命令8.Redis相关知识9.Redis五大数类型10.Redis事务11.Redis的持久化12.RDB13.AOF14.RDB 和 AOF 如何选择?15.Redis主从复制16.集群模式17.集群的Jedis开发18.官方链接总结前言本文分享本菜鸟的Redis学习笔记,稍微有点乱。 Redis是一个开源的key-value存储系统,数据都在内存中,支持持

2020-12-23 19:56:22 2624 9

原创 Nginx离线搭建静态文件服务器rpm版

文章目录前言1.下载2.安装3.配置4.访问5.官方文档总结前言本文分享本菜鸟离线安装Nginx静态文件服务器的过程。文件可以放在指定的物理路径下就可以实现文件的共享,只要有该服务器的IP就可以下载到该文件,比较适合在局域网下文件的共享。查看很多资料(包括官方文档)发现网络上离线很多都是通过源码的编译来一步步的搭建的,本菜鸟也通过源码的方式来搭建过,但是其实也是完全可以用rpm包的形式来安装。笨鸟先飞,熟能生巧 ~比心心 ~提示:以下是本篇文章正文内容,下面案例可供参考1.下载主线版

2020-12-18 16:33:25 255 1

原创 Canal-学习笔记分享

文章目录前言1.官方链接2.简介3.主从复制原理图4.canal 工作原理5.配置6.Canal的Java客户端7.资料链接总结前言本文分享本菜鸟的Canal学习笔记。Canal可以通过监控MySql的binlog日志实时监控MySql的数据变化,广泛引用于大数据实时处理领域。一起学习,一起进步。本人QQ:599903582笨鸟先飞,熟能生巧。比心心~提示:以下是本篇文章正文内容,下面案例可供参考1.官方链接https://github.com/alibaba/canal2.简

2020-11-27 15:11:53 216

原创 Zookeeper-学习笔记分享

文章目录前言1.概述2.工作机制3.Zookeeper特点4.数据结构5.应用场景6.选举机制7.命令操作8.监听器原理9.ZookeeperApi资料链接:总结前言本文分享本菜鸟的Zookeeper学习笔记。Zookeeper主要为集群组件协调工作提供服务。相对内容比较少。本菜鸟QQ:599903582笨鸟先飞,熟能生巧。比心心~提示:以下是本篇文章正文内容,下面案例可供参考1.概述为分布式应用提供协调服务的Apache项目2.工作机制设计模式来看: 观察者模式负责

2020-11-27 13:53:44 193

原创 Kafka-学习笔记分享

文章目录前言1.定义2.Kafka基本架构3.Kafka命令行操作4.Kafka工作流程5.topic的存储架构6.index文件和log文件详解7.分区8.数据的可靠性(副本)9.ISR10.ack应答机制11.故障处理12.实现Exactly Once13.Kafka消费者方式14.offset的维护15.Kafka高速读写数据16.Zookeeper在Kafka中的作用17.选举流程18.KafkaProducerApi原理19.Producer API20.Consumer API21.数据漏消费和

2020-11-25 16:06:43 336 3

原创 Spark-学习笔记分享

文章目录前言概述Spark和MR的数据处理流程对比Spark的组成示意图Spark模块Spark特点Spark的运行模式Spark官方测试案例SparkWebUISpark通用运行简易流程Spark核心概念RDD特点WordCount案例数据分区算子转换算子行动算子序列化血缘关系:RDD的持久化和检查点:RDD的分区器:文件数据的读取和存储广播变量:累加器:自定义累加器:案例:练习: 计算每个省份广告点击量的TopNSparkSQLRDD和DataFrame的交互:DataSetRDD、DataFrame、

2020-11-24 08:32:46 506

原创 Flume-学习笔记分享

文章目录前言1.定义2.基础架构(列举比较常用的组件类型)3.官方案例(监控端口数据发送到logger)4.监控单个本地文件到logger (exec Source)5. 监控单个本地文件到HDFS (Flume需要持有Hadoop的相关jar包)(exec Source)6.监控本地文件夹下新文件到HDFS (Spooling Source)7.实时监控目录下的多个追加文件(taildirSource)8.Flume事务9.Flume Agent 内部原理:10.Flume联接11.案例: Flume之间

2020-11-19 10:15:36 257 1

原创 Flink-学习笔记分享

文章目录前言简单内部原理自定义数据源:常用算子总结前言提示:本文分享本菜鸟的Flink学习笔记。本文内容比较多。涉及实践的内容相对较多,原理性的东西比较少。初次写博客,写的比较乱,愿谅解。本人是大数据方面的菜鸟一枚。如果你有任何关于大数据方面的问题,都可以来与本菜鸡讨论。一起学习,一起进步!比心心 ~提示:以下是本篇文章正文内容,下面案例可供参考简单内部原理对比:SparkStreaming 批处理 批次最小时间0.5s,开窗口必须是500ms的倍数。Flink 微批次数

2020-11-11 13:44:04 440

用于Hive学习的数据

包含两部分数据,一部分是视频的访问记录,一部分是用户的数据信息。

2021-01-08

ElasticSearchAPI工具类

ElasticSearchApi的工具类,实现了自定义接口、单例模式、接口实现。采用的ES的高级API,注释清洗,简单易懂。

2020-12-01

UserBehavior.csv

模拟的用户在浏览、购买、下单商品时产生的数据,主要是给学习供给数据使用。

2020-11-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除