muyingmiao-CSDN博客

原创 clickHouse单机模式安装部署（RPM安装）

关于版本和系统的选择操作系统：Centos-7ClickHouse: rpm在安装，20.x安装前的准备CentOS7 打开文件数限在 /etc/security/limits.conf 这个文件的末尾加入一下内容：[hadoop@hadoop001 ~]$ sudo vim /etc/security/limits.conf* soft nofile 65536* hard nofile 65536* soft nproc 131072* hard nproc 131.

2020-11-13 17:28:32 2220 1

原创 kudu的基本操作（查看集群状态，APT操作，impala操作，spark整合）

1.命令行查看kudu状态操作通过root用户切换到kudu用户1.1 查看集群整体信息（我本机的hostname是hadoop002，也就是kudu的master是hadoop002）-bash-4.2$ kudu cluster ksck hadoop002Connected to the MasterFetched info from all 1 Tablet Servers...

2020-04-14 15:44:52 4120

原创 impala安装部署(rpm安装)

1.下载impala所需的rpm包bigtop-utilsrpm包下载http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5.8.3/RPMS/noarch/impala rpm包下载地址http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.15.1/RPMS/x86_64/下载...

2020-04-12 20:30:53 1550 1

原创 Kudu部署

一 Kudu的简介和部署1.KUDU的特点OLAP工作负载的快速处理。与MapReduce、Spark等Hadoop生态系统组件集成。与Apache Impala的紧密集成，使其成为使用HDFS与Apache Parquet的一个很好的、可变的替代选择。2.KUDU 的rpm下载地址http://archive.cloudera.com/cdh5/redhat/7/x86_64/cd...

2020-04-06 20:30:04 1007

原创 Hbase通过Phoenix创建二级索引

123

2020-04-04 18:43:27 342

原创 Phoenix创建盐表

1.CREATE TABLE test.test_salt (id VARCHAR PRIMARY KEY, name VARCHAR, age INTEGER, address VARCHAR) SALT_BUCKETS = 20;SALT_BUCKETS gegion有多少个，SALT_BUCKETS就设置多少个hbase.online.schema.update.enable...

2020-04-04 12:16:11 1256

原创使用com.typesafe.config读取配置文件中的内容

1.在pom文件中引入依赖 <dependency> <groupId>com.typesafe</groupId> <artifactId>config</artifactId> <version>1.3.3</version&...

2020-03-21 13:49:28 2827

原创 npm 安装报错 "npm ERR! code Z_BUF_ERROR" 问题解决

一、引言最近在做vue项目后，需要执行一个 npm install 的命令来安装项目所需要的依赖文件，但是报错了：I’m all done. Running npm install for you to install the required dependencies. If this fails, try running the command yourself.npm ERR! ...

2020-03-18 12:49:40 447

原创 shell脚本[] [[]] -n -z 的含义解析

1、在中括号中，判断变量的值，加不加双引号的问题？ -z 判断变量的值，是否为空； zero = 0 - 变量的值，为空，返回0，为true - 变量的值，非空，返回1，为false -n 判断变量的值，是否为空 name = 名字 - 变量的值，为空，返回1，为false - 变量的值，非空，返回0，为true pid="123"...

2020-03-12 22:49:30 223

原创 Spark对接Hive：整合Hive操作及函数

1.拷贝hive-site.xml文件到spark的conf目录下2.[hadoop@hadoop002 bin]$ ./spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.47.jar 注意用5版本的mysql-connector-javascala> spark.sql("sh...

2020-03-12 22:48:08 811

原创 Flink操作HBase

1.通过Flink将数据sink到HBaseimport org.apache.commons.lang.StringUtilsimport org.apache.flink.api.common.functions.RichMapFunctionimport org.apache.flink.api.scala.ExecutionEnvironmentimport scala.co...

2020-02-12 22:43:43 2240

原创 Flink采坑记录

1.运行./yarn-session.sh命令报错[hadoop@hadoop002 bin]$ ./yarn-session.sh --helpError: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassD...

2020-02-02 11:39:51 3207 1

原创在centos7.2上Flink1.9.1源码编译（hadoop2.6.0-cdh5.15.1）

编译步骤参照官网：https://ci.apache.org/projects/flink/flink-docs-release-1.9/flinkDev/building.html0.按照官网：In addition you needMaven 3and aJDK(Java Development Kit). Flink requiresat least Java 8to buil...

2020-02-02 09:15:59 653

原创 Spark sql 自定义读取数据源

通常在一个流式计算的主流程里，会用到很多映射数据，比较常见的是Text文档，但是文档读进来之后还要匹配相应的schema，本文通过自定义TextSource数据源，自动读取默认的Schema。DefaultSource.scalapackage com.wxx.bigdata.sql_custome_sourceimport org.apache.spark.sql.SQLContex...

2019-11-26 17:36:57 430

原创 Spark自定义UDAF函数（强类型-DSL语法）

1.继承Aggregator2.实现方法3.注册函数4.通过DataSet数据集获取结果package com.wxx.bigdata.sql03import org.apache.spark.sql.{Encoders, SparkSession}import org.apache.spark.sql.expressions.Aggregatorobject Custome...

2019-11-24 08:58:52 835

原创 Spark自定义UDAF函数（弱类型）

弱类型用户自定义聚合函数：通过继承UserDefinedAggregateFunction来实现用户自定义聚合函数。下面展示一个求平均年龄的自定义聚合函数1.extendsUserDefinedAggregateFunction2.实现方法3.spark.udf.register 注册函数package com.wxx.bigdata.sql03import org.apache...

2019-11-24 08:27:45 312

原创 Spark中累加器的使用和自定义简单的累加器

累加器的使用package com.wxx.bigdata.core06import org.apache.spark.{SparkConf, SparkContext}object AccumulatorAPP { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setApp...

2019-11-23 10:03:09 361

原创 Spark的MySQL数据库连接

MySQL数据库连接支持通过Java JDBC访问关系型数据库。需要通过JdbcRDD进行，示例如下:（1）添加依赖<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version...

2019-11-23 09:34:34 168

原创 JVM重用

JVM重用是Hadoop调优参数的内容，其对Hive的性能具有非常大的影响，特别是对于很难避免小文件的场景或task特别多的场景，这类场景大多数执行时间都很短。Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销，尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使用N次。N的值...

2019-11-22 23:57:30 5014

原创 Spark action 算子

reduce(func)案例1. 作用：通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据。2. 需求：创建一个RDD，将所有元素聚合得到结果。（1）创建一个RDD[Int]scala> val rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollect...

2019-11-22 17:21:32 115

原创 Spark Core 练习题01- 统计top3

样本如下：1516609143867 6 7 64 161516609143869 9 4 75 181516609143869 1 7 87 122. 需求：统计出每一个省份广告被点击次数的TOP3package com.wxx.bigdata.core01import org.apache.spark.{SparkConf, SparkContext}/** * ...

2019-11-22 16:38:15 724

原创 kafka无消息丢失配置最佳实践

Producer端：1. 不要使用producer.send(msg)，而要使用producer.send(msg, callback)。记住，一定要使用带有回调通知的send方法。2. 设置acks = all。acks是Producer的一个参数，代表了你对“已提交”消息的定义。如果设置成all，则表明所有副本Broker都要接收到消息，该消息才算是“已提交”。这是最高等级的“已提交”定义...

2019-11-22 08:10:25 159

原创 Linux命令（vi，权限，软连接，系统命令，压缩解压，定时任务，后台运行）

1.vi包含三种模式：尾行模式(：)，命令行模式(vi 命令进入的默认模式)，编辑模式(a,i,o)命令行模式:dd：删除当前行dG（先输入d，在输入shift+g）：删除光标所在行及以下的所有行ndd：删除光标所在行及以下的n-1行gg：跳转到第一行的首字母G：跳转到最后一行的首字母shift+$：跳转到当前行的行尾0：跳转到当前行的行首vi清空这个文件:gg+dG...

2019-11-21 23:44:49 359

原创大数据脚本(zookeeper,flume,kafka,远程同步工具,远程查看命令,kafka)

1. zookeeper.sh#! /bin/bashcase $i in"start"){ for i in hadoop000 hadoop001 hadoop002 do ssh $i "/home/hadoop/app/zookeeper/bin/zkServer.sh start" done };;"stop"){ for i...

2019-11-17 16:25:40 217

原创部署Hbase + Phoenix，并通过DBeaver连接Phoenix

1.Hbase安装步骤https://blog.csdn.net/muyingmiao/article/details/1030025982 Phoenix的安装2.1 Phoenix的官网http://phoenix.apache.org/2.2 Phoenix 安装文件地址http://www.apache.org/dyn/closer.lua/phoenix/https://mirr...

2019-11-12 19:29:32 2911 3

原创 RDD，DataFrame和DataSet的共性和区别

RDD (Spark1.0) ->Dataframe(Spark1.3) -> Dataset(Spark1.6)共性1.RDD，dataFrame和DataSet都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利2.三者都有惰性加载机制，在进行创建，转换如map方法时不会立即执行，只有在遇到action如foreach时，三者才会进行遍历计算。3.三者都会根据...

2019-11-11 15:48:31 294

原创 Hbase伪分布式部署+zookeeper伪分布式部署

1.zookeeper部署[hadoop@hadoop002 conf]$ cat zoo.cfg# The number of milliseconds of each ticktickTime=2000# The number of ticks that the initial# synchronization phase can takeinitLimit=10# Th...

2019-11-10 21:56:34 711 2

原创 Spark SQL 2.X 自定义udf

一、UDF介绍UDF（User Define Function），即用户自定义函数。几乎所有sql数据库的实现都为用户提供了扩展接口来增强sql语句的处理能力，这些扩展称之为UDXXX，即用户定义（User Define）的XXX，这个XXX可以是对单行操作的UDF，或者是对多行操作的UDAF，或者是UDTF，本次主要介绍UDF。UDF的UD表示用户定义，既然有用户定义，就会有系统内建（...

2019-11-07 21:32:46 714

原创 SparkSQL中 RDD，DF和DS之间的相互转换

类型之间的转换总结RDD、DataFrame、Dataset 三者有许多共性，有各自适用的场景常常需要在三者之间转换DataFrame/Dataset 转RDD：这个转换很简单val rdd1=testDF.rddval rdd2=testDS.rddRDD 转DataFrame：import spark.implicits._val testDF = rdd.map {l...

2019-11-07 21:19:32 2587

原创 Xshell在按delete,backspace键产生乱码的解决方法

当我们用Xshell登录进入linux后,在普通模式下,对输入进行删除等操作没有问题.而在运行中,按delete,backspace键时会产生^H等乱码问题.这是因为编码不匹配的问题.解决方法:选择文件->默认会话属性弹出的对话框中,选择Terminal下的Keyboard.如下设置重新打开一个终端，测试正常...

2019-10-30 09:03:10 442

原创一台机器搭建Kafka集群及Kafka的简单操作（伪分布式）

1.搭建Zookeeper集群（伪分布式）。参考如下链接https://mp.csdn.net/postedit/1027974692.将下载的kafkatar.gz文件解压tar zxvfkafka_2.11-2.2.1-kafka-4.1.0.tar.gz -C ~/app/3.将afka_2.11-2.2.1-kafka-4.1.0/config/server.properties复...

2019-10-29 20:37:00 2261 3

原创一台机器搭建Zookeeper集群（伪集群）

1.下载zookeeper-3.4.5-cdh5.15.1_01.tar.gz2.创建/home/hadoop/app/zookeeper-3.4.5-cdh5.15.1_01/、/home/hadoop/app/zookeeper-3.4.5-cdh5.15.1_02/、/home/hadoop/app/zookeeper-3.4.5-cdh5.15.1_03/三个目录3.将zookeepe...

2019-10-29 13:57:21 730

原创 Hive在使用MySQL5.7的数据库会提示：WARN: Establishing SSL connection without server's identity verification ...

Hive在使用过程中，会提示hive (default)> show databases;Mon Oct 28 19:26:54 CST 2019 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.4...

2019-10-28 22:05:25 390 1

原创 hive首次启动后，MySQL中没有元数据[Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHive...]

Hive启动后，执行show databases会报错hive (default)> show databases;FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache....

2019-10-28 19:30:51 419

原创 Spark on Yarn的常见错误

1. 将spark作业提交到yarn上执行spark仅仅作为一个客户端./spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \ /home/hadoop/app/spark-2.4.4-bin-2.6.0-cdh5.15.1/examples/jars/spark-examples_2.11-...

2019-10-25 22:05:54 547

原创 Linux 的nohup命令与&

nohupnohup 命令运行由 Command参数和任何相关的 Arg参数指定的命令，忽略所有挂断（SIGHUP）信号。在注销后使用 nohup 命令运行后台中的程序。要运行后台中的 nohup 命令，添加 & （表示“and”的符号）到命令的尾部。nohup 是 no hang up 的缩写，就是不挂断的意思。nohup命令：如果你正在运行一个进程，而且你觉得在退出帐户时该...

2019-10-25 20:24:26 167

原创 CDH的卸载

1.卸载前的规划1.1 做镜像备份1.2 关闭集群及 MySQL服务1.3 删除部署文件夹 /opt/cloudera*1.4 删除数据文件夹2.卸载集群2.1 确认各服务组件的存储数据目录，以HDFS YARN ZK为例/dfs/nn/dfs/dn/dfs/snnYARN/yarn/nmZK/var/lib/zookeeper2.2 关闭集群及 MySQL服...

2019-10-25 14:56:18 1089

原创 CDH配置邮件预警服务

1 打开CMS（Cloudera Management Service）的配置页2 在CMS配置页，点击"Configuration"，配置邮箱参数邮箱要先去开通授权码，Hostname不同的邮箱不一样126：smtp.126.com163：smtp.163.comqq：smtp.qq.com去第二页配置465端口5.保存成功，给出提示6.重启CM服务，使之生效点击Finish...

2019-10-25 13:24:43 489

原创 CDH的启动和停止步骤

一启动1.启动MySQL服务[root@hadoop001 ~]# su - mysqladminLast login: Thu Oct 24 14:23:45 CST 2019 on pts/0hadoop001:mysqladmin:/usr/local/mysql:>service mysql startStarting MySQL..[ OK ]hadoop0...

2019-10-25 12:35:44 8183

原创 CDH之CDS部署与测试：CDH 部署Spark2.4.0（Centos7.2 | CDH5.16.1 | Spark2.4.0）

0 CDH的SparkCDH上面Spark的版本都是1.6的版本1.查看官网部署文档https://docs.cloudera.com/documentation/spark2/latest.html官网给出的一些建议和前置条件，https://docs.cloudera.com/documentation/spark2/latest/topics/spark2_requirements.ht...

2019-10-24 14:10:09 604 1

Flink Memory calculations.xlsx

Flink TaskExecutor 内存计算表格下载地址：https://docs.google.com/spreadsheets/d/1mJaMkMPfDJJ-w6nMXALYmTc4XxiV30P5U7DzgwLkSoE/edit

2020-11-05

CDH5.16.1集群企业真正离线部署(全网最细，配套视频，生产可实践).pdf

CDH5.16.1集群企业真正离线部署-全网最细，配套视频，生产可实践 CDH5.16.1集群企业真正离线部署-全网最细，配套视频，生产可实践 CDH5.16.1集群企业真正离线部署-全网最细，配套视频，生产可实践 CDH5.16.1集群企业真正离线部署-全网最细，配套视频，生产可实践 CDH5.16.1集群企业真正离线部署-全网最细，配套视频，生产可实践

2019-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人