路飞DD-CSDN博客

原创启动 ES 报错 ERROR: [1] bootstrap checks failed [1]: max virtual memory areas vm.max_

当启动 ES 时报错如下：ERROR: [1] bootstrap checks failed[1]: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]{"type": "server", "timestamp": "2019-12-01T11:34:18...

2019-12-01 19:49:58 1067

原创 docker-compose 安装

1.下载docker-compose:sudo curl -L https://github.com/docker/compose/releases/download/1.16.1/docker-compose-`uname -s`-`uname -m` -o /usr/local/bin/docker-compose2.给docker-compose加一个可执行的权限:sudo...

2019-12-01 16:32:26 411

原创 Docker 安装

1、Docker 要求 CentOS 系统的内核版本高于 3.10 ，查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker 。通过uname -r命令查看你当前的内核版本2、使用root权限登录 Centos。确保 yum 包更新到最新。$ sudo yum update3、卸载旧版本(如果安装过旧版本的话)$ sudo yum remo...

2019-12-01 15:56:45 238

原创 linux 修改网络配置后重启网卡报错 Failed to start LSB

修改完ifcfg-ens33 文件之后，通过service network restart重启网卡的时候报错如下：解决方案：禁用NetworkManager 1. systemctl stop NetworkManager 2. systemctl disable Netwo...

2019-12-01 15:15:44 3433

原创 Kafka | 基本概念

Kafka 简介在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2）Kafka最初是由LinkedIn公司开发，并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一...

2019-07-08 17:34:46 138

原创 Flume | 实时读取文件到 HDFS

1）在 flume/job 目录下创建 flume-file-hdfs.conf 配置文件，内容如下# Name the components on this agenta2.sources = r2a2.sinks = k2a2.channels = c2 # Describe/configure the sourcea2.sources.r2.type = execa...

2019-07-08 12:06:26 664

原创 Flume | 安装

Flume官网地址文档查看地址下载地址Flume 安装1）下载 flume2）解压apache-flume-1.7.0-bin.tar.gz到/opt/module/目录下[hadoop@hadoop102 software]$ tar -zxvf apache-flume-1.7.0-bin.tar.gz -C /opt/module/3）修改apache...

2019-07-07 23:06:26 118

原创 Flume | 基本概念

Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集,聚集,移动信息的服务,Flume仅仅运行在linux环境下,它是一个基于流式的数据的灵活的架构,具有健壮和容错性。Flume组成架构AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的，是Flume数据传输的基本单元。Agent主要有3个部分组成，Source...

2019-07-07 22:36:28 127

原创 Scala 从入门到放弃 | Scala 简介

Scala 来源于 "scalable language"，即可伸缩的语言。运行在 JVM 之上，可以与 Java 类库无缝协作。Scala 是一门综合了面向对象和函数式编程概念的静态类型的编程语言。下面我们先宏观的数一数 Scala 的那些特性1）首先Scala 一个集美貌与才华与一身的美男子，它既是是面向对象的又是函数式的：①Scala是面向对象的：不是类似 Java 的半...

2019-07-06 00:57:49 177

原创 SparkSQL 操作 Mysql 数据

代码如下，就是根据连接以及表信息读取表中的数据转换为 DataFrame拿到 DataFrame 就可以十八般武艺各种操作了object SparkSQLMysqlDemo { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("SparkSQLMysql...

2019-07-05 17:18:31 513

原创 Spark-submit 提交报错 org.apache.spark.sql.execution.datasources.orc.OrcFileFormat could not be instant

错误场景如下代码：spark.sql("select e.empno,e.ename,e.job,e.mgr,e.comm from emp e join dept d on e.deptno = d.deptno") .filter("comm is not null") .write.parquet("/demp");spark-shell 可以跑的...

2019-07-05 00:45:54 9406

原创 Spark SQL 操作 Hive 表数据

spark-shell 方式操作 Hiveshow tablesselect * from empjoin 操作总结：和 HQL 语法一毛一样，只是记得使用如下格式 spark.sql(" xxxxxx ").show 即可如果嫌麻烦，还可以直接使用 spark-sql 进行查询，直接写 sql 即可操作 hive，如下结果为：编程方...

2019-07-05 00:38:20 1976

原创 SparkSession 访问 Hive 表数据报错：org.apache.spark.sql.AnalysisException: Table or view not found

错误场景当通过 SparkSession 访问 hive 中的表数据时，报错如下：Exception in thread "main" org.apache.spark.sql.AnalysisException: Table or view not found: emp; line 1 pos 47 at org.apache.spark.sql.catalyst.analys...

2019-07-04 19:58:05 3379

原创 Spark SQL 操作 Parquet 类型文件

Parquet介绍Apache Parquet是Hadoop生态圈中一种新型列式存储格式，它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等)，被多种查询引擎支持（Hive、Impala、Drill等），并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera(由于Impala的缘故)合作开发完成并开源，2015年5月从Apache的孵化器里...

2019-07-04 18:52:40 2247

原创 DataSet 的基本使用

DataSet 简介DataSet是分布式的数据集合，Dataset提供了强类型支持，也是在RDD的每行数据加了类型约束。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点（强类型和可以用强大lambda函数）以及使用了Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建，可以用函数式的转换（map/flatmap/filter）进行多种操作...

2019-07-04 15:55:40 1170

原创 DataFrame API 操作

person.json{"name":"路飞","age":17,"deptno":1,"money":15}{"name":"索隆","age":18,"deptno":1,"money":9}{"name":"乔巴","age":5,"deptno":1,"money":5}{"name":"艾斯","age":18,"deptno":2,"money":18}{"name...

2019-07-04 12:19:55 3078

原创 DataFrame 与 RDD 互操作

Spark SQL 支持了两种不同的方式，将存在的 RDD 转换为 DataSet（DataSet 是 DataFrame 的更高层抽象）。DataFrame和RDD互操作的两种方式： 1）反射：case class 前提：事先需要知道你的字段、字段类型（优先考虑） 2）编程：如果事先不知道列，可以选择编程的方式实现转换person....

2019-07-04 11:38:04 201

原创 Jdbc 编程访问 spark SQL

首先启动 thriftserver./start-thriftserver.sh --master local[2] --jars /opt/module/hive-1.2.2/lib/mysql-connector-java-5.1.27-bin.jar 添加 pom 依赖 <dependency> <groupId>org....

2019-07-04 00:02:19 211

原创 spark-shell、spark-sql、thriftserver beeline 的区别

spark-shell、spark-sql 都是是一个独立的 spark application，启动几个就是几个 spark application每次都要重新启动申请资源。用thriftserver，无论启动多少个客户端（beeline），只要是连在一个thriftserver上，它都是一个spark application，后面不用在重新申请资源。能数据共享（上一个beeli...

2019-07-03 23:19:34 2052

原创 thriftserver & beeline 用法

启动 thriftserver 服务端[hadoop@hadoop2 sbin]$ ./start-thriftserver.sh \--master local[2] \--jars /opt/module/hive-1.2.2/lib/mysql-connector-java-5.1.27-bin.jarWebUI 查看启动 beeline 进行连接...

2019-07-03 22:53:44 368

原创 spark-shell & spark-sql 使用

spark-shell启动 spark-shell[hadoop@hadoop2 bin]$ ./spark-shell --master local[2] \--jars /opt/module/hive-1.2.2/lib/mysql-connector-java-5.1.27-bin.jar通过 spark-shell 操作 hive...

2019-07-03 22:31:42 12391

原创 Spark SQL | HiveContext 用法

代码如下：object demo2 { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf() //sparkConf.setAppName("HiveContext").setMaster("local[*]") val sc = new SparkContext(sp...

2019-07-03 21:57:57 594

原创 SparkSQL 通过 HiveContext 查询 hive表数据报错 java.lang.ClassNotFoundException: sparkSql.demo2

错误java.lang.ClassNotFoundException: sparkSql.demo2 at java.net.URLClassLoader.findClass(URLClassLoader.java:382) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at java.lang.ClassLoa...

2019-07-03 21:53:05 943

原创 Spark SQL 写入 Json 格式文件报错 org.apache.spark.sql.AnalysisException: Found duplicate column(s)

错误场景如下两个 Json 文件person.json{"name":"路飞","age":17,"deptno":1,"money":15}{"name":"索隆","age":18,"deptno":1,"money":9}{"name":"乔巴","age":5,"deptno":1,"money":5}{"name":"艾斯","age":18,"deptno":...

2019-07-03 18:28:12 5116

原创 Spark SQL | SQLContext 用法

声明：SQLContext 已在 2.x 被废除，建议使用 SparkSession数据准备person.json{"name":"路飞","age":17,"deptno":1,"money":15}{"name":"索隆","age":18,"deptno":1,"money":9}{"name":"乔巴","age":5,"deptno":1,"money":5}{...

2019-07-03 18:17:47 2609

原创 Scala 使用 Junit 4 单元测试

导入依赖 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> &l...

2019-07-03 16:34:58 1103

原创 Spark SQL 与 Hive 交互报错：Specified key was too long; max key length is 3072 bytes

-- 昨夜西风凋碧树，独上高楼，望尽天涯路问题描述Spark SQL 查询 Hive 中数据的时候，报错如下：com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key l...

2019-06-28 09:08:03 3861

原创 HiveContext 执行报错Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;

-- 昨夜西风凋碧树，独上高楼，望尽天涯路问题描述通过 spark-submit 执行 spark程序读取 hive 中数据的时候报错执行命令为：spark-submit --class com.demo1.HiveContextDemo --master spark://had...

2019-06-27 17:11:18 547

原创 HiveContext 执行报错Exception in org.apache.spark.sql.AnalysisException: Table or view not found

-- 昨夜西风凋碧树，独上高楼，望尽天涯路问题描述通过 Spark 的 HiveContext 查询 Hive 中的数据的时候报错如下：Exception in thread "main" org.apache.spark.sql.AnalysisException: Table or view not found:...

2019-06-27 17:02:53 1101

原创 Spark 报错：Lost task 0.0 in stage 1.0 (TID 2, xxx, executor 0): java.io.FileNotFoundExceptio

-- 昨夜西风凋碧树，独上高楼，望尽天涯路问题描述在 Spark 集群中读取本地文件出现如下错误：Lost task 0.0 in stage 1.0 (TID 2, xxxxx, executor 0): java.io.FileNotFoundException: File file...

2019-06-27 16:11:46 7451

原创 Spark 源码编译

-- 昨夜西风凋碧树，独上高楼，望尽天涯路下载Spark进入官网http://spark.apache.org/ 点击 Download 进行下载：选择需要的版本，源码方式点击进行下载点击 spark-2.4.3.tgz ，进入如下页面：选择链接点击进...

2019-06-27 12:57:55 207

原创 Linux 下关闭防火墙命令

-- 昨夜西风凋碧树，独上高楼，望尽天涯路1:查看防火状态systemctl status firewalldservice iptablesstatus2:暂时关闭防火墙systemctl stop firewalldservice iptablesstop3:永久关闭防火墙...

2019-06-25 11:16:42 403

原创 Maven 下载 & 安装

-- 昨夜西风凋碧树，独上高楼，望尽天涯路下载Maven1）进入 Maven 官网：http://maven.apache.org，点击 Download2）进入到下载页面之后我们发现只能下载最新版本的 Maven往下瞧一瞧，有个 All current release source...

2019-06-21 15:18:21 154

原创 CDH 版 Hadoop 下载

-- 昨夜西风凋碧树，独上高楼，望尽天涯路下载地址：http://archive.cloudera.com/cdh5/网页显示如下：点击 cdh 目录，选择 5 ，进入如下页面，该页面包含了 CDH 5 版本的所有项目：在该页面 Ctrl + f，搜索 Hadoop 相关的安装包：...

2019-06-21 12:30:37 3398 2

原创配置免密登陆

当通过 ssh-copy-id -i ~/.ssh/id_rsa.pub root@IP，命令配置免密登陆的时候出现如下问题：/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: "/root/.ssh/id_rsa.pub"/usr/bin/ssh-copy-id: INFO: attempting t...

2019-04-22 11:57:57 545

原创 Kubernetes遇上Spring Cloud | 服务无法通过网关路由

-- 昨夜西风凋碧树，独上高楼，望尽天涯路问题当网关路由转发配置如下时：此时，从网关同意入口访问服务会发现异常。查看应用服务的日志发现，竟然是从连接为 http：//eureka-srv:服务端口号下去拉去访问具体服务，这肯定是找不到的（具体微服务的host被替换为eureka-srv，kubernetes中设定的eure...

2018-11-20 20:23:32 1546

原创 Docker

-- 昨夜西风凋碧树，独上高楼，望尽天涯路Docker是基于Go语言实现的开源容器项目，诞生于2013年年初。Docker包括一个命令行程序，一个后台守护进程，以及一组远程服务。解决了常见的软件问题，并且简化了安装，运行，发布和删除软件。 Docker安装 Docker入门 1. Docker容器（一） Docker进...

2018-11-11 21:24:45 114

原创 Docker | 入门篇 | (二)

--昨夜西风凋碧树，独上高楼，望尽天涯路 Docker架构 Docker的核心组件包括： 1.Docker客户端：Client2.Docker服务器：Docker daemon3.Docker镜像：Image4.Registry5.Docker容器：ContainerDocker架构图如...

2018-11-11 21:12:28 117

原创 Docker | 存储

--昨夜西风凋碧树，独上高楼，望尽天涯路。Docker为容器提供了两种存放数据的资源：（1）由storage driver管理的镜像层和容器层（2）Data Volume storage driver docker镜像使用分层结构，分层结构使镜像的创建、共享已经分发变得非常高效，这些都归功于Docker storage driver...

2018-11-11 21:07:52 161

原创 Docker | 容器 |（二）

--昨夜西风凋碧树，独上高楼，望尽天涯路资源限制运行在docker host上的若干容器，每个都需要CPU、内存和IO资源。对于KVM、VMware等虚拟化技术，用户可以控制分配多少CPU、内存资源给每个虚拟机。对于容器，Docker也提供了类似的机制避免某个容器占用太多的资源而影响其他容器乃至整个系统。1.内存限额与操作系统类...

2018-11-11 21:07:36 297

Netty权威指南 第2版 带书签目录 完整版

空空如也

Netty权威指南第2版带书签目录完整版