自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(73)
  • 收藏
  • 关注

原创 Hadoop生态圈

Hadoop生态圈前言一、Hadoop生态HadoopHadoop生态圈二、生态圈模块HDFSMapReduceYarnHiveZookeeperHbaseSqoop前言        截止写这边文章前,已经学习了hadoop、hive、hbase、zookeeper、sqoop,后续还会学习Hadoop生态圈的其他模块内容,这篇文章的内容也会逐渐完善。下面我把学习中有必要去了解和掌握的和大家一起分享。一、Hadoop生

2020-12-05 11:53:31 628

原创 Linux Hadoop平台伪分布式安装(Hive on Spark)

Hadoop大数据平台伪分布式安装

2023-11-09 10:51:03 836

原创 Linux磁盘挂载及扩容操作

linux磁盘挂载及扩容操作

2023-09-20 14:07:12 768

原创 Windows下的Elasticsearch-head安装

windows下安装es-head

2023-09-12 10:39:09 476

原创 HDP服务器上spark-sql联通hive元数据库

执行的脚本没有执行,提示没有找到数据库;新打session窗口测试,通过spark-sql连接yarn后。问题描述:金山云大数据平台(基于HDP)服务器上跑批数据加工脚本时,发现当中通过。发现数据库与hive元数据库不一致;

2023-06-14 10:29:02 129

原创 IDEA Windows下Spark连接Hive

IDEA Windows下SPARK连接Hive

2022-11-21 16:01:13 1745 1

原创 VMware Centos7虚拟机镜像无法启动问题处理记录

文章目录前言Handle Process前言博主本人固态空间不够,之前有将虚拟机从固态盘移动至了机械盘中存储,之后再移入固态盘启动虚拟机时突然发现无法启动了,这可把我吓一跳,不过最终还是找到了一个解决方法,这里和大家分享下经验!Handle Process启动虚拟机直接报错,系统找不到指定文件,我完整复制镜像还有这问题?不信邪的我去根目录下一探究竟来到虚拟机根目录下,发现计算机骗我,指定文件明明在当前目录下呆着,凭什么启动不了?将文件以notepad方式打开,对比目录下的文件,发

2021-05-15 15:58:27 1855

原创 虚拟化 VMware ESXi 6.7服务器及主机安装

目录前言安装ESXI服务器安装Centos主机前言ESXI是VMware的企业虚拟化产品,可视为虚拟化的平台基础,部署于实体服务器。不同于VMware Workstation、VMware Server,ESXI采用的是(裸金属或裸机)的一种安装方式,直接将Hypervisor 安装在实体机器上,并不需要实现安装OS。Hypervisor就是掌握硬件资源的微内核。ESXI 专为运行虚拟机、最大限度降低配置要求和简化部署设计。ESXi 体系结构采用基于 API 的合作伙伴集成模型,因此不再需要安装

2021-05-12 00:09:22 1024 3

原创 Centos7下Cluster离线安装 Apache Ambari-2.7.3+

文章目录前言AmbariHDPHDP-UTILS一、安装准备1.1 Ambari、HDP版本介绍1.2 设备前置安装1.2.1 关闭防火墙1.2.2 无密登录1.2.3 jdk安装1.2.4 服务器时间同步1.3 软件准备二、离线安装前言AmbariApache Ambari是用于置备,管理和监视Apache Hadoop集群的工具。 Ambari由一组RESTful API和一个基于浏览器的管理界面组成。Ambari使系统管理员可以:设置Hadoop集群: Ambari提供了一个易于使用的

2021-05-11 10:07:50 478

原创 Java普通工程打包&Maven工程打包&运行jar包

文章目录一、普通工程二、MAVEN工程【同时打胖包瘦包】三、执行jar包一、普通工程File --> Project Structure…Artifacts --> "+" --> JAR --> From modules with dependencies...出现如下界面点击OK这里根据流程选择主类,确认后点击"OK"Build–>Build Artifacts…第一次打包点击Build,后面再打包点击Rebuild

2021-05-07 17:39:37 467 1

原创 Linux下静默安装Oracle服务端&脚本自动化安装

文章目录前言一、pandas是什么?前言一、pandas是什么?

2021-05-07 11:52:16 508 1

原创 Mybatis连接Oracle数据库【增删改查】实例

文章目录Denpency二级目录三级目录Denpency二级目录三级目录

2021-04-30 13:50:47 3729 1

原创 Maven本地仓库中加入Oracle jar包

文章目录前言一、Oracle jar包获取二、Oracle版本获取三、Maven命令打包四、Maven poml导入前言当我们使用java连接oracle时,从maven获取对应denpency粘贴至新建工程的poml中,发现无法拉取jar包至本地仓库中,这是由于版权原因,甲骨文官方屏蔽了依赖;这时我们需要用另外一种方法:maven本地库打jar包一、Oracle jar包获取这里我是从oracle的服务端此目录:$ORACLE_HOME/jdbc/lib/下获取的:二、Oracl

2021-04-30 13:34:56 986 3

原创 FineReport连接Hive

目录前言a. jar包拷贝b. 创建连接前言最近项目最后阶段用finereport做报表时,发现部分表需要聚合,这部分数据在M有SQL下的性能让人过于着急。于是干脆连接到hive,直接走MapReduce查询。a. jar包拷贝将以下jar包复制FineReport此目录下:${FINEREPORT_HOME}\webapps\webroot\WEB-INF\libhadoophadoop-common-2.6.0-cdh5.14.2.jarhivehive-jdbc-1.1

2021-04-22 17:08:03 1151

原创 Sqoop导出 Hive orc格式数据至 MySQL

文章目录前言解决方法a. 配置环境变量b. Sqoop前言项目末尾需要将Hive的维度表导入至Hdfs,这里我第一时间就决定使用Sqoop来传输数据。但是当我运行Sqoop任务时,直接给我浇了一盆凉水,这时我去检查发现,hive内这一层数据都是采用orc格式存储的。报错如下:解决方法a. 配置环境变量将${HIVE_HOME}下的Hcatalog的bin添加至环境变量#HCAT_HOMEexport HCAT_HOME=/opt/software/hive110/hcatalo

2021-04-22 10:09:33 683

原创 使用MyBatis读取Hive数据并写入MySQL实例

文章目录前言一、思路整理二、Dependency三、Code3.1 实体类3.2 DAOa. HiveDaob. MySQLDao3.3 配置文件a.mybatis-config.xmlb. hive-events.xmlc. mysql-events.xml3.4 工具类a. DruidDataSourceFactoryb. DatabaseUtils3.5 服务类3.6 测试类App前言在项目的末尾需要做大屏展示时,遇到了需要将hive的维度表导入到MySQL中。这里除了使用Sqoop外,我们

2021-04-21 23:42:18 4147 1

原创 Java读Kafka后写入HBase实例

文章目录前言:思路分析包结构一、poml二、读写接口2.1 Read2.2 Write三、读Kafka3.1 KafkaUtils3.2 KafkaReadImpl四、写HBase4.1 HBaseConf4.2 HBaseUtils4.3 UsersImpl五、application运行5.1 NormalFactory5.2 AppTest前言:思路分析a.读写分别对应不同的操作,这里定义两个接口,分别对应读写操作;b.读取Kafka数据,这里接口参数设置两个,一个是Properties,另外一

2021-04-18 16:24:34 534

原创 Spark Streaming读写Kafka实例

目录Linking DenpencyCommon WritingLinking Denpencypoml依赖<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.targe

2021-04-17 10:10:34 347

原创 Java操作Hdfs

文章目录前言一、初始化环境二、测试方法2.1 创建文件夹2.2 创建文件并写入数据2.3 在文件后追加内容2.4 查看HDFS文件2.5 文件(夹)重命名2.6 删除文件(夹)2.7 文件上传2.7.1 本地文件上传2.7.2 上传带进度条2.8 下载文件2.9 查看HDFS文件列表2.10 查看DataNode信息前言       可能很多小伙伴用java写过MapReuce的代码,但是对于操作HDFS相信很多小伙伴都是用Lin

2021-04-14 19:34:00 327

原创 Linux下修改yum镜像源&修改pip镜像源

目录一、修改yum镜像源二、修改pip镜像源2.1 国内镜像源2.2 安装指定源方式a. 一次性指定方式b. 永久指定一、修改yum镜像源备份系统本身自带yum源:/etc/yum.repos.d/CentOS-Base.repo#创建保存yun源的文件夹[root@sole ~]# mkdir /opt/centos-yum.bak #将系统原有yum源拷贝至此[root@sole ~]# mv /etc/yum.repos.d/CentOS-Base.repo /opt/centos-y

2021-04-13 14:23:50 334

原创 Linux下安装Python3&Pyspark

安装目录查看本机已安装的Python下载Python安装包安装依赖环境安装gcc编译器安装zlib的解压缩类库解压Python安装包配置安装目录&编译源码并执行源码安装永久修改pip源pyspark安装查看本机已安装的Python#python -V也可查看[root@sole ~]# python --versionPython 2.7.5下载Python安装包Python版本下载安装依赖环境[root@sole ~]# yum install openssl-devel

2021-04-13 11:14:31 885

原创 Spark Straming 集成Flume实例

目录前言一、Push方式a. spark streaming codeb. flume配置c. Test二、Poll方式前言       Spark Streaming 通过 Push 和 Pull 两种方式对接 Flume 数据源。以 Spark Streaming 的角度来看,Push 方式属于推送(由 Flume 向 Spark 推送)而 Pull 属于拉取(Spark 拉取 Flume 的输出)。  &

2021-04-06 23:27:05 175

原创 scala模式匹配

目录前言内容匹配类型匹配结构匹配内容匹配:数值区间前言Scala 提供了强大的模式匹配机制,应用也非常广泛。一个模式匹配包含了一系列备选项,每个都开始于关键字 case。每个备选项都包含了一个模式及一到多个表达式。箭头符号 => 隔开了模式和表达式。内容匹配e.g. //内容匹配:字符串:正则 //这里先确定邮箱格式正确之后再确认邮箱类型 val email = "[email protected]" val rst = email match { case

2021-04-04 23:51:09 108

原创 Kafka安装及配置

安装目录前言一、解压安装包二、编辑配置三、配置环境变量四、测试服务五、Kafka常用指令前言本次安装的Kafka version:kafka_2.11-2.0.0.tgzKafka安装包下载:官网源下载一、解压安装包#解压安装包[root@sole download]# tar -xvf kafka_2.11-2.0.0.tgz -C /opt/software/#重命名安装包[root@sole software]# mv kafka_2.11-2.0.0/ kafka211200

2021-04-04 23:03:04 106

原创 JDBC操作HBase

什么是JDBC?        JDBC 规范定义接口,具体的实现由各大数据库厂商来实现。        JDBC 是 Java 访问数据库的标准规范,真正怎么操作数据库还需要具体的实现类,也就是数据库驱动。每个数据库厂商根据自家数据库的通信格式编写好自己数据库的驱动。所以我们只需要会调用 JDBC 接口中的方法即可,数据库驱动由数据库厂商提供。

2021-04-04 15:15:53 2002 1

原创 Java集成Kafka(读写Kafka实例)

目录一、写入kafkaLinking DenpencyCode一、写入kafkaLinking Denpency导入poml依赖:<!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka --> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11&

2021-04-03 23:32:49 1678 3

原创 DStream API相关

目录Transformations on DStreamsUpdateStateByKeyTransformWindowJoina. Stream-stream joinsb. Stream-dataset joinsOutput OperationsOther pointsDataFrame and SQL OperationsTransformations on DStreams        DStream支持普通Sp

2021-04-01 12:34:40 343

原创 Spark Streaming集成Kafka

目录前言一、Receiver接收方式(了解)二、Direct直连方式(掌握)2.1 实例演示2.1.1 MAVEN LINKING2.1.2 创建Scala Objecta. LocationStrategiesb. ConsumerStrategies前言        在Spark1.3版本后,KafkaUtils里面提供了两个创建dstream的方法,一种为KafkaUtils.createDstream,另一种为

2021-04-01 00:01:22 613

原创 Spark Streaming流式数据处理

这里写目录标题一、Spark Streaming 简介二、简单的例子Spark Streaming相关核心类一、Spark Streaming 简介Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。数据可以从Kafka, Kinesis, or TCP sockets等许多来源摄入,并且可以使用与像高级别功能表达复杂的算法来处理map,reduce,join和window。最后,可以将处理后的数据推送到文件系统,数据库和实时仪表板。还可以在数

2021-03-31 22:46:27 1530

原创 大数据工程师之SQL&HSQL&SPARK算子练习

目录写在前面SQL部分(MySQL)HIVE部分(MySQL)SPARK部分(待续)写在前面       作为一名合格的大数据开发工程师,SQL&HSQL&SPARK算子,对于我们来说如同吃饭喝水的东西,想到即可实现、信手拈来;这里提供一套习题,可以用这三种语言同时练习一遍,如果这三种都可以很顺利的完成,那么恭喜你,在这方面你已经勉强合格了!(如果觉得写的还不够过瘾,那就再用scala搓一遍)  

2021-03-30 20:19:52 314

原创 Flume+Kafka实例演示(离线文件采集)

目录一、为什么集成flume和kafka?二、Flume+Kafka实战2.1 Flume配置2.2 Kafka配置2.3 开启消费端,并执行Agent任务2.4 数据检查三、问题总结一、为什么集成flume和kafka?       一般使用Flume+Kafka架构都是希望完成实时流式的日志处理,前台可能有多个Flume端采集数据向存储服务器扔,这时数据采集速度过快,而一旦数据处理速度无法跟上采集速度,很容易造成数据堆积或数据丢

2021-03-30 19:36:32 577

原创 MapReduce执行模式

mapreduce执行模式1.MR的分布式运行:yarn平台上由MRApplicationMaster控制全部流程每一个task以及MRApplicationMaster都以独立的进程运行在nodeManager的contain中执行;2.MR的本地运行:MapReduce 程序是被提交给 LocalJobRunner 在本地以单进程多线程的形式运行整个运行流程有localJobRunner控制每一个task都以线程的方式执行决定mr程序以分布式还是以本地模式运行://JobCl

2021-03-27 11:01:22 127

原创 kafka高吞吐的实现

这里写目录标题kafka高吞吐一、顺序读写:sequence IO二、零拷贝:无第三方存储,通道对拷(java nio的写法)三、日志分段及消息查找a.日志分段b.消息查找四、批处理五、数据压缩:gzip,snappy,lz4kafka高吞吐一、顺序读写:sequence IO磁盘的特性:快速顺序读写、慢速随机读写。磁盘是典型的IO块设备,每次读写都会经历寻址,其中寻址中寻道是比较耗时的。随机读写会导致寻址时间延长,从而影响磁盘的读写速度;Kafka在将数据持久化到磁盘时,采用只追加的顺序写,Ka

2021-03-27 09:42:52 147

原创 HA(高可用)完全分布式集群部署

一、集群整体方案设计hd01hd02hd03作用NameNode(主)activeNNNameNode(备)standbyNNDFSZKFailoverController故障自动转移JournalNodeNamenode数据同步DataNode数据节点ResourceManager(主)主资源管理进程ResourceManager(备)备份资源管理NodeManager节点

2021-03-19 11:41:07 1268 2

原创 mybatis连接MySQL数据库【增删改查】实例

这里写目录标题一、实体类创建一、实体类创建PS:如果有写错或者写的不好的地方,欢迎各位在评论区留下宝贵的意见或者建议,敬上!如果这篇博客对您有帮助,希望您可以顺手帮我点个赞!不胜感谢!原创作者:wsjslient作者主页:https://blog.csdn.net/wsjslient...

2021-03-13 16:50:20 197

原创 Flume数据采集至HDFS的排雷日记

文章目录写在前面一、pandas是什么?写在前面       本篇文章对于想了解Flume采集数据至HDFS的过程中有哪些需要注意的小伙伴有一定的帮助,这里为了模拟真实环境,临时搭建一台虚拟机,将数据存入TOMCAT中后,我们将数据从当前虚拟机传输至另外一台虚拟机的HDFS上。环境所涉及版本:apache-tomcat-8.5.63flume-ng-1.6.0-cdh5.14.2hadoop-2.6.0-cdh5.14.2

2021-03-11 09:20:22 664

原创 JDBC连接MySQL快速批量插入数据

导航目录一、**按单条插入数据库慢的原因**:二、实现批量插入的主要方法点三、实例演示3.1 代码演示实例:3.2 代码运行结果:一、按单条插入数据库慢的原因:主要原因是单条写入时候需要应用于db之间大量的请求响应交互。每个请求都是一个独立的事务提交;这样网络延迟大的情况下多次请求会有大量的时间消耗的网络延迟上;第二个是由于每个事务db都会有刷新磁盘操作写事务日志,保证事务的持久性;由于每个事务只是写入一条数据 所以磁盘io利用率不高,因为对于磁盘io是按块来的,所以连续写入大量数据效率更好。所以必

2021-03-09 18:14:04 630

原创 大数据开发之数据仓库理论

这里写目录标题一、什么是数据仓库1.1 数仓的特点a.数据面向主题b.数据是集成的二、数仓和数据库的区别三、数仓的数据来源四、数仓的分层五、数仓的数据模型六、数仓调优七、数据维护一、什么是数据仓库        数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。1.1 数仓的特点a.数

2021-03-03 00:02:13 410

原创 Hive数据倾斜总结

这里写目录标题前言一、什么是Hive的数据倾斜二、发生数据倾斜的原因三、如何解决不同类型的数据倾斜前言        数据倾斜是大数据处理不可避免会遇到的问题,那么在Hive中数据倾斜又是如何导致的?通过本片本章,你可以清楚的认识为什么Hive中会发生数据倾斜;发生数据倾斜时我们又该用怎么的方案去解决不同的数据倾斜问题。一、什么是Hive的数据倾斜      

2021-03-02 11:57:16 1545

原创 基于Shell的一条指令智能启动(关闭)Hadoop生态圈服务

目录写在前面一、shell一次性启动1.1 关键方法写在前面       对于很多学习大数据的同学来说,当学习大数据越来越深入的时候,服务器上需要安装的服务也越来越多,每次启动服务都需要操作一小会。而且很久不启动服务还可能忘记指令或启动方式,使用shell脚本可以完美的帮我们解决这个问题。一、shell一次性启动       我们先解决启动服务的问题,之后解决关

2021-01-15 13:48:21 340 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除