macaoyuan0527-CSDN博客

原创 Jenkins打包的项目存在哪里了（Linux）

~/.jenkins/workspace/projectname/target/默认存在这里，记录一下

2020-12-29 14:07:47 6278 1

原创 idea打开多模块项目只显示一个解决办法

idea打开多模块项目只显示一个手动导入一下就可以了，至于为什么没识别，我也不清楚什么原因

2020-12-22 09:56:59 4983

原创傻瓜式搭建自己的Git远程版本库

搭建自己的Git远程仓库环境：阿里云Windows server 2012 R2JDK1.8下载安装包http://www.gitblit.org/这里用的是win系统所以选择win下载完后解压创建本地仓库目录做配置default.propertiesgit.repositoriesFolder 本地库的dirserver.httpBindInterf...

2020-02-27 17:32:42 1315

原创 Apache Flink（从小白到熟练掌握）

Apache Flink一、概述https://flink.apache.org/[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-p1oVcYTE-1582679088382)(https://flink.apache.org/img/flink-header-logo.svg)]Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流...

2020-02-26 09:07:30 1613

原创 Could not find a file system implementation for scheme 'hdfs'. The scheme is not directly supported

Flink应用提交到集群报错：Could not find a file system implementation for scheme ‘hdfs’. The scheme is not directly supported by Flink and no Hadoop file system to support this scheme could be loaded.产生上述问题是在...

2020-02-23 15:11:21 8343

原创 org.apache.flink.core.fs.UnsupportedFileSystemSchemeException: Hadoop is not in the classpath/depend

Flink应用提交到集群报错org.apache.flink.core.fs.UnsupportedFileSystemSchemeException: Hadoop is not in the classpath/dependencies.产生上述问题是在Flink中操作了HDFS文件系统（比如checkpoint到HDFS）但是缺少配置导致的解决方法:1.环境变量加入以下配置（别忘...

2020-02-23 15:10:17 2648

原创 Spark Structured Streaming快速入门（详解）

Spark Structured Streaming一、概述http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html简单来说Spark Structured Streaming提供了流数据的快速、可靠、容错、端对端的精确一次处理语义，它是建立在SparkSQL基础之上的一个流数据处理引擎；...

2020-02-17 19:28:18 1884

原创 SparkSQL快速入门（详解）

问题A表里面有三笔记录字段是 ID start_date end_date数据是：1 2018-02-03 2019-02-03;2 2019-02-04 2020-03-04;3 2018-08-04 2019-03-04；根据已知的三条记录用sql写出结果为：A 2018-02-03 2018-08-04;B 2018-08-04 2019-02-03;C 2019-02-...

2020-02-12 21:28:51 732

原创 Spark Streaming快速入门

一、概述http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSpark Streaming是Spark Core功能拓展，可以实现数据流的可扩展、高吞吐、容错处理。SparkStreaming处理的数据可以来源于多种数据源（如:Kafka、Flume、TCP套接字），这些数据流经过流式计算的复杂处理和加工，最终...

2020-02-05 19:49:37 448

原创 Spark RDD详解（什么是RDD、创建RDD的几种方式）

什么是RDD？RDD（ resilient distributed dataset ）弹性分布式数据集；RDD代表是一个不可变的、可分区的、支持并行计算的元素集合（类似于Scala中的不可变集合），RDD可以通过HDFS、Scala集合、RDD转换、外部的数据集（支持InputFormat）获得；并且我们可以通知Spark将RDD持久化在内存中，可以非常高效的重复利用或者在某些计算节点故障时自...

2020-01-14 21:17:03 653

原创 SparkClassNotFoundException: xxx

问题原因：spark应用在计算时使用到第三方依赖jar包，在spark集群运行时如果没有提供此jar包则会发生java.lang.ClassNotFoundException！解决办法：第一种方法：将第三方依赖jar包，提前准备到spark集群的每一个计算节点（太麻烦不建议）第二种方法：提交spark应用的时候，添加参数，在线下载需要的第三方依赖（麻烦且有问题不建议）第三种方案【推...

2020-01-14 21:07:16 562

原创 Spark快速入门

Spark概述官网：http://spark.apache.org官方文档：http://spark.apache.org/docs/latest/Apache Spark是一个快如闪电的统一分析引擎（并没有提供数据存储的方案）快如闪电（相比于传统的大数据处理方案MapReduce）：Spark将一个复杂的计算任务Job拆分为多个细粒度的Stage，每一个Stage都可以分布式并...

2020-01-13 20:59:37 156

原创 Spark2.4.4+Hadoop2.9快速搭建（Spark快速入门）

Spark概述官网：http://spark.apache.org官方文档：http://spark.apache.org/docs/latest/Apache Spark是一个快如闪电的统一分析引擎（并没有提供数据存储的方案）快如闪电（相比于传统的大数据处理方案MapReduce）：Spark将一个复杂的计算任务Job拆分为多个细粒度的Stage，每一个Stage都可以分布式并...

2020-01-13 20:58:30 1787

原创 Scala的进阶（高阶函数、集合、泛型、异常...）

匿名函数参数列表 => 函数体柯里化函数（Curring）柯里化函数指将接受多个参数的函数，改造为接受单个参数的函数并且返回一个函数对象的过程就称为柯里化目的是让函数通用性更高（传如一个参数，任意拆分函数，返回值是函数对象） // 函数原始写法 def sum(x:Int,y:Int):Int = x + y // 柯里化函数的标准写法 def sum2(x:I...

2020-01-08 22:47:28 298

原创 Scala快速入门（介绍、安装、IDE配置、案例、开发第一个Scala程序）

Scala概述Scala编程语言是一款多范式的编程语言，即纯面向对象又是函数式编程的一款高级语言；支持类型推断可以在复杂的应用避免一些不必要的错误；Scala的应用程序运行在JVM（java 虚拟机）之上，可以无缝的和Java语言进行互操作；并且提供了一个规模庞大的生态系统，可以简化复杂应用的开发；官网：https://www.scala-lang.org/特点：无缝和Java进行互操...

2020-01-07 19:26:37 573

原创 Scala数据类型（整体联系）

Scala和Java有这差不多的数据类型，但是在Scala中一切皆对象主要分为值类型和引用类型数据类型描述Byte8位有符号补码整数。数值区间为 -128 到 127Short16位有符号补码整数。数值区间为 -32768 到 32767Int32位有符号补码整数。数值区间为 -2147483648 到 2147483647Long64位有符号补码...

2020-01-06 09:15:54 127

原创 MapReduce的推测执行（Hive优化）

关于Hadoop MapReduce推测任务：在分布式集群环境下，因为程序 Bug（包括 Hadoop 本身的 bug），负载不均衡或者资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，有些任务的运行速度可能明显慢于其他任务（比如一个作业的某个任务进度只有 50%，而其他所有任务已经运行完毕），则这些任务会拖慢作业的整体执行进度。为了避免这种情况发生，Hadoop 采用了...

2020-01-05 10:14:37 429

原创 Hive的执行计划（Explain ）

语法EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query案例：（1）查看下面这条语句的执行计划explain select * from emp;explain select deptno, avg(sal) avg_sal from emp group by deptno;（2）查看详细执行计划explain extende...

2020-01-05 10:10:55 370

原创 Hive的严格模式

Hive 提供了一个严格模式，可以防止用户执行那些可能意想不到的不好的影响的查询。通过设置属性 hive.mapred.mode 值为默认是非严格模式 nonstrict 。开启严格模式需要修改 hive.mapred.mode 值为 strict。<property> <name>hive.mapred.mode</name> <value&g...

2020-01-05 10:05:18 155

原创 Hive无法执行MapReduce任务

检查HDFS和yarn集群否工作正常，基本都是yarn没启动或者服务挂掉了，实在不行重启hadoop集群即可，保证HDFS和yarn集群的工作正常

2020-01-05 09:56:47 1476

原创 Linux启动 mysql 服务时，报 MySQL server PID file could not be found! 异常。

解决办法：在/var/lock/subsys/mysql 路径下创建 hadoop102.pid，并在文件中添加内容：4396

2020-01-05 09:54:39 379

原创 Hive启动报错：java.lang.OutOfMemoryError: Java heap space（java堆内存溢出）

解决办法：在 yarn-site.xml 中加入如下代码<property> <name>yarn.scheduler.maximum-allocation-mb</name> <value>2048</value></property><property> <name>yarn.sche...

2020-01-05 09:52:16 950

原创 Hive启动连接不上MySQL

解决办法：检查MySQL驱动jar包是否导入了Hive的bin目录，如果没导入导入，导入了还是不行，可能是jar包问题，看jar包和你的mysql版本是不是一样的。如果还不行，就要检查下配置文件了（hive-site.xml） <property> <name>javax.jdo.option.Co...

2020-01-05 09:50:06 2746 1

原创 Hive相关（概述、环境搭建、命令、API、JDBC、HBase整合等）

HiveApache Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的类sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提...

2020-01-04 17:35:49 267

原创 Kafka相关（概述、架构解析、MQ、流处理、高级特性、API、Flume/SpringBoot集成等）

一、概述官网：http://kafka.apache.org/Kafka是什么?Apache Kafka是一个分布式的流数据平台；三层含义：消息系统（MQ）：发布和订阅流数据流数据处理（Streaming）: 可以基于Kakfa开发流数据处理的应用，用以实时处理流数据流数据存储（Store）：以一种安全分布式、冗余、容错的方式，存放流数据；Kafka的典型应用场景（...

2020-01-01 18:15:04 348

原创 Kafka MQ在企业中的常见应用

常见应用：异步通信异步解耦流量削峰日志收集写缓存

2019-12-26 20:55:57 379

原创 Kafka的几个面试重点（高级特性）

Kafka面试常客消费组用来组织管理消费者一个特性，同组负载均衡，不同组广播同组负载均衡相同的消费组的消费者实例运行多个// 运行多个消费者服务实例prop.put(ConsumerConfig.GROUP_ID_CONFIG, "g1"); // 消费组不同组广播同组负载均衡结论：同组负载均衡，同组一个消费者负责一个或多个分区的数据处理，分区到消费者是一个平行关系...

2019-12-24 19:21:34 1156

原创 Kafka完全分布式搭建

准备工作有三个节点JDK8.0+ 环境同步集群时钟ZooKeeper集群服务健康1.上传安装包2.解压安装3.修改配置文件：vi server.properties#一个Kafka服务实例是一个broker，有一个唯一标识，即下面的BrokerIDbroker.id=0 #node02：1#node03: 2#配置当前kafka服务器的协议：//IP：Port...

2019-12-24 09:18:09 314

原创 5分钟入门正则表达式（附正则代码生成工具）

可以利用 String类中的API进行验证** 缺点：仅靠 String 目前提供的方法完成验证相对比较繁琐。解决方案： JDK4.0 之后， Java 中提供了正则表达式，专门用于字符串的格式校验。****正则看起来很难看懂，但是其实只需要学会正则的语法规范就很简单了！！！**我们先看一下正则的规范：（在下面分享的正则网站中根据下面规则测试，5分钟学会正则）正则的...

2019-12-22 10:15:32 988

原创 MapReduce作业提交流程

MapReduce作业提交流程MapReduce作业提交流程1.客户端运行一个MapReduce程序，这个程序就成一个job（作业）2.客户端向ResourcesManager申请资源1.先检查输入/输出目录是否存在等2.通过第一步检查后会返回资源（从NameNode上获取数据的元数据信息，App_ID）3.客户端会通过元数据信息计算切片，让后上传资源文件到共享文件系统中（HDFS）...

2019-12-09 22:34:34 464

原创 java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

java操作HDFS报错：并不影响执行java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.解决方法：在HDOOP_HOME目录里放置winutils.exe文件和hadoop.dll很多人放了没解决接下载把hadoop.dll放在windows...

2019-12-05 20:53:09 208

原创 Error: JAVA_HOME is incorrectly set.

Windows本地Hadoop在cmd中报错，说JAVA_HOME没有设置，但是输入java命令可以执行，是因为jdk安装目录带有空格导致的可以这样解决：配置JAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_191注意：如果你的安装目录是Program Files才可以用PROGRA~1替换哪个贷款空格的目录，PROGRA~1代表的就是Program Files！！！...

2019-12-05 20:20:47 2052 1

原创 JDK8新特性、JUC

接口（jdk8/9/10/11新特性）Java 8中允许接口中包含具有具体实现的方法，该方法称为 “默认方法”，默认方法使用 default 关键字修饰。接口默认方法的”类优先”原则若一个接口中定义了一个默认方法，而另外一个父类或接口中又定义了一个同名的方法时 1.选择父类中的方法。如果一个父类提供了具体的实现，那么接口中具有相同名称和参数的默认方法会被忽略。2.接口冲突。如果一个父...

2019-12-03 20:10:40 753

原创 SQL的执行顺序

SQL的执行顺序：from --> where --> group by --> having --> select --> orderfrom:需要从哪个数据表检索数据where:过滤表中数据的条件group by:如何将上面过滤出的数据分组having:对上面已经分组的数据进行过滤的条件select:查看结果集中的哪个列，或列的计算结果order ...

2019-12-03 19:53:25 76

原创 JDK锁优化

锁优化：高效并发是从 JDK1.5 到 JDK 1.6 的一个重要改进，HotSpot 虚拟机开发团队在这个版本上花费了大量的精力去实现各种锁优化技术，如**适应性自旋（Adaptive Spining）、锁消除（Lock Elimination）、锁粗化（Lock Coarsening）、轻量级锁（Lighting Locking）和偏向锁（Biased Locking）**等，这些技术都是为...

2019-12-03 19:50:14 331

原创 Linux命令、历史介绍、使用等

一、概述1.1 Linux的历史操作系统，英语Operating System简称为OS。说道操作系统就需要先讲一讲Unix，UNIX操作系统，是一个强大的多用户、多任务操作系统，支持多种处理器架构，按照操作系统的分类，属于分时操作系统，最早由KenThompson、Dennis Ritchie和Douglas McIlroy于1969年在AT&T的贝尔实验室开发。而linux就是一款...

2019-12-03 19:37:33 678

原创 xshell连接本地linux虚拟机速度很慢禁用DNS解析快速连接

xshell连接本地linux虚拟机速度很慢禁用DNS解析可以实现快速连接连接本地CentOS（Linux）很慢，本地网络又没有延迟这是因为DNS解析的问题，禁用就可以秒连接了vi /etc/ssh/sshd_config修改 #UseDNS=yes 为 UseDNS=no （注意去掉前面的 # 注释符否则白改）然后，重启ssh服务（这里是CentOS 6）（重启也可 rebo...

2019-12-03 19:28:29 663

原创大数据概念

一、概述大数据概念大数据是新处理模式才具有更强的决策力，洞察发现力和流程优化能力来适应海量、高增长、多样化得信息资产。面临的问题存储：单机存储有限，容错率低，没法对文件进行拆分分析：单机（cpu）性能有限，可能计算资源分布不均匀（效率低）大数据的特点（1）数据量大B-KB-MB-GB-TB-PB-EB-ZB…各种云存储解决方案，百度云，腾讯微云，OneDriver、GoogleD...

2019-12-03 19:20:34 362

zookeeper安装手册（Linux）

Nginx安装手册（Linux）

Nacos安装手册（Win/Linux）

Docker安装MySQL5.6安装手册

Docker安装手册（Linux）

Kafka安装手册（Linux）

Linux/Win JDk8安装手册

空空如也