自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(154)
  • 资源 (2)
  • 收藏
  • 关注

原创 clickHouse单机模式安装部署(RPM安装)

关于版本和系统的选择操作系统:Centos-7ClickHouse: rpm在安装,20.x安装前的准备CentOS7 打开文件数限在 /etc/security/limits.conf 这个文件的末尾加入一下内容:[hadoop@hadoop001 ~]$ sudo vim /etc/security/limits.conf* soft nofile 65536* hard nofile 65536* soft nproc 131072* hard nproc 131.

2020-11-13 17:28:32 2220 1

原创 kudu的基本操作(查看集群状态,APT操作,impala操作,spark整合)

1.命令行查看kudu状态操作通过root用户切换到kudu用户1.1 查看集群整体信息(我本机的hostname是hadoop002,也就是kudu的master是hadoop002)-bash-4.2$ kudu cluster ksck hadoop002Connected to the MasterFetched info from all 1 Tablet Servers...

2020-04-14 15:44:52 4120

原创 impala安装部署(rpm安装)

1.下载impala所需的rpm包bigtop-utilsrpm包下载http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5.8.3/RPMS/noarch/impala rpm包下载地址http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.15.1/RPMS/x86_64/下载...

2020-04-12 20:30:53 1550 1

原创 Kudu部署

一 Kudu的简介和部署1.KUDU的特点OLAP工作负载的快速处理。与MapReduce、Spark等Hadoop生态系统组件集成。与Apache Impala的紧密集成,使其成为使用HDFS与Apache Parquet的一个很好的、可变的替代选择。2.KUDU 的rpm下载地址http://archive.cloudera.com/cdh5/redhat/7/x86_64/cd...

2020-04-06 20:30:04 1007

原创 Hbase通过Phoenix创建二级索引

123

2020-04-04 18:43:27 342

原创 Phoenix创建盐表

1.CREATE TABLE test.test_salt (id VARCHAR PRIMARY KEY, name VARCHAR, age INTEGER, address VARCHAR) SALT_BUCKETS = 20;SALT_BUCKETS gegion有多少个,SALT_BUCKETS就设置多少个hbase.online.schema.update.enable...

2020-04-04 12:16:11 1256

原创 使用com.typesafe.config读取配置文件中的内容

1.在pom文件中引入依赖 <dependency> <groupId>com.typesafe</groupId> <artifactId>config</artifactId> <version>1.3.3</version&...

2020-03-21 13:49:28 2827

原创 npm 安装报错 "npm ERR! code Z_BUF_ERROR" 问题解决

一、引言最近在做vue项目后,需要执行一个 npm install 的命令来安装项目所需要的依赖文件,但是报错了:I’m all done. Running npm install for you to install the required dependencies. If this fails, try running the command yourself.npm ERR! ...

2020-03-18 12:49:40 447

原创 shell脚本[] [[]] -n -z 的含义解析

1、在中括号中,判断变量的值, 加不加双引号的问题? -z 判断 变量的值,是否为空; zero = 0 - 变量的值,为空,返回0,为true - 变量的值,非空,返回1,为false -n 判断变量的值,是否为空 name = 名字 - 变量的值,为空,返回1,为false - 变量的值,非空,返回0,为true pid="123"...

2020-03-12 22:49:30 223

原创 Spark对接Hive:整合Hive操作及函数

1.拷贝hive-site.xml文件到spark的conf目录下2.[hadoop@hadoop002 bin]$ ./spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.47.jar 注意用5版本的mysql-connector-javascala> spark.sql("sh...

2020-03-12 22:48:08 811

原创 Flink操作HBase

1.通过Flink将数据sink到HBaseimport org.apache.commons.lang.StringUtilsimport org.apache.flink.api.common.functions.RichMapFunctionimport org.apache.flink.api.scala.ExecutionEnvironmentimport scala.co...

2020-02-12 22:43:43 2240

原创 Flink采坑记录

1.运行./yarn-session.sh命令报错[hadoop@hadoop002 bin]$ ./yarn-session.sh --helpError: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassD...

2020-02-02 11:39:51 3207 1

原创 在centos7.2上Flink1.9.1源码编译(hadoop2.6.0-cdh5.15.1)

编译步骤参照官网:https://ci.apache.org/projects/flink/flink-docs-release-1.9/flinkDev/building.html0.按照官网:In addition you needMaven 3and aJDK(Java Development Kit). Flink requiresat least Java 8to buil...

2020-02-02 09:15:59 653

原创 Spark sql 自定义读取数据源

通常在一个流式计算的主流程里,会用到很多映射数据,比较常见的是Text文档,但是文档读进来之后还要匹配相应的schema,本文通过自定义TextSource数据源,自动读取默认的Schema。DefaultSource.scalapackage com.wxx.bigdata.sql_custome_sourceimport org.apache.spark.sql.SQLContex...

2019-11-26 17:36:57 430

原创 Spark自定义UDAF函数(强类型-DSL语法)

1.继承Aggregator2.实现方法3.注册函数4.通过DataSet数据集获取结果package com.wxx.bigdata.sql03import org.apache.spark.sql.{Encoders, SparkSession}import org.apache.spark.sql.expressions.Aggregatorobject Custome...

2019-11-24 08:58:52 835

原创 Spark自定义UDAF函数(弱类型)

弱类型用户自定义聚合函数:通过继承UserDefinedAggregateFunction来实现用户自定义聚合函数。下面展示一个求平均年龄的自定义聚合函数1.extendsUserDefinedAggregateFunction2.实现方法3.spark.udf.register 注册函数package com.wxx.bigdata.sql03import org.apache...

2019-11-24 08:27:45 312

原创 Spark中累加器的使用和自定义简单的累加器

累加器的使用package com.wxx.bigdata.core06import org.apache.spark.{SparkConf, SparkContext}object AccumulatorAPP { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setApp...

2019-11-23 10:03:09 361

原创 Spark的MySQL数据库连接

MySQL数据库连接支持通过Java JDBC访问关系型数据库。需要通过JdbcRDD进行,示例如下:(1)添加依赖<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version...

2019-11-23 09:34:34 168

原创 JVM重用

JVM重用是Hadoop调优参数的内容,其对Hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或task特别多的场景,这类场景大多数执行时间都很短。Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销,尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使用N次。N的值...

2019-11-22 23:57:30 5014

原创 Spark action 算子

reduce(func)案例1. 作用:通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。2. 需求:创建一个RDD,将所有元素聚合得到结果。(1)创建一个RDD[Int]scala> val rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollect...

2019-11-22 17:21:32 115

原创 Spark Core 练习题01- 统计top3

样本如下:1516609143867 6 7 64 161516609143869 9 4 75 181516609143869 1 7 87 122. 需求:统计出每一个省份广告被点击次数的TOP3package com.wxx.bigdata.core01import org.apache.spark.{SparkConf, SparkContext}/** * ...

2019-11-22 16:38:15 724

原创 kafka无消息丢失配置最佳实践

Producer端:1. 不要使用producer.send(msg),而要使用producer.send(msg, callback)。记住,一定要使用带有回调通知的send方法。2. 设置acks = all。acks是Producer的一个参数,代表了你对“已提交”消息的定义。如果设置成all,则表明所有副本Broker都要接收到消息,该消息才算是“已提交”。这是最高等级的“已提交”定义...

2019-11-22 08:10:25 159

原创 Linux命令(vi,权限,软连接,系统命令,压缩解压,定时任务,后台运行)

1.vi包含三种模式:尾行模式(:),命令行模式(vi 命令进入的默认模式),编辑模式(a,i,o)命令行模式:dd:删除当前行dG(先输入d,在输入shift+g) :删除光标所在行及以下的所有行ndd:删除光标所在行及以下的n-1行gg:跳转到第一行的首字母G:跳转到最后一行的首字母shift+$:跳转到当前行的行尾0:跳转到当前行的行首vi清空这个文件:gg+dG...

2019-11-21 23:44:49 359

原创 大数据脚本(zookeeper,flume,kafka,远程同步工具,远程查看命令,kafka)

1. zookeeper.sh#! /bin/bashcase $i in"start"){ for i in hadoop000 hadoop001 hadoop002 do ssh $i "/home/hadoop/app/zookeeper/bin/zkServer.sh start" done };;"stop"){ for i...

2019-11-17 16:25:40 217

原创 部署Hbase + Phoenix,并通过DBeaver连接Phoenix

1.Hbase安装步骤https://blog.csdn.net/muyingmiao/article/details/1030025982 Phoenix的安装2.1 Phoenix的官网http://phoenix.apache.org/2.2 Phoenix 安装文件地址http://www.apache.org/dyn/closer.lua/phoenix/https://mirr...

2019-11-12 19:29:32 2911 3

原创 RDD,DataFrame和DataSet的共性和区别

RDD (Spark1.0) ->Dataframe(Spark1.3) -> Dataset(Spark1.6)共性1.RDD,dataFrame和DataSet都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2.三者都有惰性加载机制,在进行创建,转换如map方法时不会立即执行,只有在遇到action如foreach时,三者才会进行遍历计算。3.三者都会根据...

2019-11-11 15:48:31 294

原创 Hbase伪分布式部署+zookeeper伪分布式部署

1.zookeeper部署[hadoop@hadoop002 conf]$ cat zoo.cfg# The number of milliseconds of each ticktickTime=2000# The number of ticks that the initial# synchronization phase can takeinitLimit=10# Th...

2019-11-10 21:56:34 711 2

原创 Spark SQL 2.X 自定义udf

一、UDF介绍UDF(User Define Function),即用户自定义函数。几乎所有sql数据库的实现都为用户提供了扩展接口来增强sql语句的处理能力,这些扩展称之为UDXXX,即用户定义(User Define)的XXX,这个XXX可以是对单行操作的UDF,或者是对多行操作的UDAF,或者是UDTF,本次主要介绍UDF。UDF的UD表示用户定义,既然有用户定义,就会有系统内建(...

2019-11-07 21:32:46 714

原创 SparkSQL中 RDD,DF和DS之间的相互转换

类型之间的转换总结RDD、DataFrame、Dataset 三者有许多共性,有各自适用的场景常常需要在三者之间转换DataFrame/Dataset 转RDD:这个转换很简单val rdd1=testDF.rddval rdd2=testDS.rddRDD 转DataFrame:import spark.implicits._val testDF = rdd.map {l...

2019-11-07 21:19:32 2587

原创 Xshell在按delete,backspace键产生乱码的解决方法

当我们用Xshell登录进入linux后,在普通模式下,对输入进行删除等操作没有问题.而在运行中,按delete,backspace键时会产生^H等乱码问题.这是因为编码不匹配的问题.解决方法:选择文件->默认会话属性弹出的对话框中,选择Terminal下的Keyboard.如下设置重新打开一个终端,测试正常...

2019-10-30 09:03:10 442

原创 一台机器搭建Kafka集群及Kafka的简单操作(伪分布式)

1.搭建Zookeeper集群(伪分布式)。参考如下链接https://mp.csdn.net/postedit/1027974692.将下载的kafkatar.gz文件解压tar zxvfkafka_2.11-2.2.1-kafka-4.1.0.tar.gz -C ~/app/3.将afka_2.11-2.2.1-kafka-4.1.0/config/server.properties复...

2019-10-29 20:37:00 2261 3

原创 一台机器搭建Zookeeper集群(伪集群)

1.下载zookeeper-3.4.5-cdh5.15.1_01.tar.gz2.创建/home/hadoop/app/zookeeper-3.4.5-cdh5.15.1_01/、/home/hadoop/app/zookeeper-3.4.5-cdh5.15.1_02/、/home/hadoop/app/zookeeper-3.4.5-cdh5.15.1_03/三个目录3.将zookeepe...

2019-10-29 13:57:21 730

原创 Hive在使用MySQL5.7的数据库会提示:WARN: Establishing SSL connection without server's identity verification ...

Hive在使用过程中,会提示hive (default)> show databases;Mon Oct 28 19:26:54 CST 2019 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.4...

2019-10-28 22:05:25 390 1

原创 hive首次启动后,MySQL中没有元数据[Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHive...]

Hive启动后,执行show databases会报错hive (default)> show databases;FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache....

2019-10-28 19:30:51 419

原创 Spark on Yarn的常见错误

1. 将spark作业提交到yarn上执行spark仅仅作为一个客户端./spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \ /home/hadoop/app/spark-2.4.4-bin-2.6.0-cdh5.15.1/examples/jars/spark-examples_2.11-...

2019-10-25 22:05:54 547

原创 Linux 的nohup命令与&

nohupnohup 命令运行由 Command参数和任何相关的 Arg参数指定的命令,忽略所有挂断(SIGHUP)信号。在注销后使用 nohup 命令运行后台中的程序。要运行后台中的 nohup 命令,添加 & ( 表示“and”的符号)到命令的尾部。nohup 是 no hang up 的缩写,就是不挂断的意思。nohup命令:如果你正在运行一个进程,而且你觉得在退出帐户时该...

2019-10-25 20:24:26 167

原创 CDH的卸载

1.卸载前的规划1.1 做镜像备份1.2 关闭集群 及 MySQL服务1.3 删除部署文件夹 /opt/cloudera*1.4 删除数据文件夹2.卸载集群2.1 确认各服务组件的存储数据目录,以HDFS YARN ZK为例/dfs/nn/dfs/dn/dfs/snnYARN/yarn/nmZK/var/lib/zookeeper2.2 关闭集群 及 MySQL服...

2019-10-25 14:56:18 1089

原创 CDH配置邮件预警服务

1 打开CMS(Cloudera Management Service)的配置页2 在CMS配置页,点击"Configuration",配置邮箱参数邮箱要先去开通授权码,Hostname不同的邮箱不一样126:smtp.126.com163:smtp.163.comqq:smtp.qq.com去第二页配置465端口5.保存成功,给出提示6.重启CM服务,使之生效点击Finish...

2019-10-25 13:24:43 489

原创 CDH的启动和停止步骤

一 启动1.启动MySQL服务[root@hadoop001 ~]# su - mysqladminLast login: Thu Oct 24 14:23:45 CST 2019 on pts/0hadoop001:mysqladmin:/usr/local/mysql:>service mysql startStarting MySQL..[ OK ]hadoop0...

2019-10-25 12:35:44 8183

原创 CDH之CDS部署与测试:CDH 部署Spark2.4.0(Centos7.2 | CDH5.16.1 | Spark2.4.0)

0 CDH的SparkCDH上面Spark的版本都是1.6的版本1.查看官网部署文档https://docs.cloudera.com/documentation/spark2/latest.html官网给出的一些建议和前置条件,https://docs.cloudera.com/documentation/spark2/latest/topics/spark2_requirements.ht...

2019-10-24 14:10:09 604 1

Flink Memory calculations.xlsx

Flink TaskExecutor 内存计算表格 下载地址:https://docs.google.com/spreadsheets/d/1mJaMkMPfDJJ-w6nMXALYmTc4XxiV30P5U7DzgwLkSoE/edit

2020-11-05

CDH5.16.1集群企业真正离线部署(全网最细,配套视频,生产可实践).pdf

CDH5.16.1集群企业真正离线部署-全网最细,配套视频,生产可实践 CDH5.16.1集群企业真正离线部署-全网最细,配套视频,生产可实践 CDH5.16.1集群企业真正离线部署-全网最细,配套视频,生产可实践 CDH5.16.1集群企业真正离线部署-全网最细,配套视频,生产可实践 CDH5.16.1集群企业真正离线部署-全网最细,配套视频,生产可实践

2019-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除