- 博客(74)
- 收藏
- 关注
原创 启动hadoop,jps没有datanode
启动./start-dfs.sh后jps发现没有datanode进程。查看日志2018-02-27 13:54:27,918 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting2018-02-27 13:54:29,140 INFO org.apache.hadoop.hdfs.server.common.Storage: Lock on /home/hadoop/app/tmp/dfs/data/in_use.lock
2021-09-02 11:24:24 2551
原创 grafana-reporter
功能:将grafana dashboard导出为pdf安装部署reporteryum install go -yyum install -y gityum install -y texlive-latexyum install texlive texlive-science -ygo get github.com/IzakMarais/reporter/...go install -v github.com/IzakMarais/reporter/cmd/grafana-reporterno
2021-08-24 11:26:42 1262
原创 Spark 配置历史服务器
类似Hadoop,Spark也有自己的history server,这里我们就来配置下:修改 spark-defaults.conf.template 文件名为 spark-defaults.confmv spark-defaults.conf.template spark-defaults.conf修改 spark-default.conf 文件,配置日志存储路径spark.eventLog.enabled truespark.eventLog.dir
2021-07-20 16:28:31 1098
原创 Hive 外部表&内部表&临时表
外部表&内部表hive建一个内部表,如果不加location,就会放到默认路径/user/hivecreate table test(id int,name string) row format delimited fields terminated by ',';hdfs上数据导入表testload data inpath '/test.txt' into table test;然后观察,hdfs上的/test.txt消失了,去hive默认路径下找,发现文件被转移到了/user/
2021-07-06 15:40:18 1218
原创 hadoop fs -help 命令明细
[cluster@cdh-01 ~]$ hadoop fs -helpUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... | OCTAL
2021-07-06 09:00:07 450
原创 Hive mapreduce job报错解决
问题描述:使用beeline连接hiveserver2,将HDFS上的json格式数据导入到一个临时表,然后再通过insert into ... select ...将数据导入正式表中,但在这一步Hive报错,Error信息为:ERROR : FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask详细报错如下:INFO : Completed compiling command.
2021-07-05 17:22:04 1907
原创 CentOS7系统编码
编码决定了一份文件是否会乱码,编码可以在三个地方设置:代码设置终端设置系统设置代码中可以指定编码格式,终端的设置也比较方便,这里,看一下centos7中系统编码的设置。使用 loacle 命令查看系统编码:[root@node2 ~] localeLANG=zh_CN.UTF-8LC_CTYPE="zh_CN.UTF-8"LC_NUMERIC="zh_CN.UTF-8"LC_TIME="zh_CN.UTF-8"LC_COLLATE="zh_CN.UTF-8"LC_MONETARY
2021-07-02 09:47:47 2764
原创 记一次 Flume file channel 故障修复
故障:Taildir Source 通过File Channel 向HDFS Sink 写入数据,因为小文件过多,就把配置文件进行了修改,修改过后,重启flume agent,发现flume log报错,如下:02 七月 2021 09:16:13,959 ERROR [PollableSourceRunner-TaildirSource-r1] (org.apache.flume.source.taildir.TaildirSource.process:236) - Unable to tail fi
2021-07-02 09:30:48 2059 1
原创 Hive源码编译 导入Idea 运行Cli 读取服务端数据
需求:IDEA中导入Hive源码,在IDEA中输入SQL: select count(1) from emp emp表是在你的服务器hive中的,结果在IDEA终端展示编译源码下载hive对应版本的源码,这里我们使用hive-1.1.0-cdh5.16.2,到 cloudera/hive 的GitHub地址下载,解压后,进入根路径下Git Bash Here。mvn clean package -Phadoop-2,dist -DskipTests -Dmaven.javadoc.sk
2021-04-08 13:47:13 421
原创 把idea中的项目导入github仓库中步骤详解
将在Idea开发的代码放到GitHub托管是很方便的。前提是已经下载过git并进行配置的,并且注册过github,再来进行以下idea的操作git的操作部分详情看这里1.检查自己的idea是否登录github打开idea,点击file > setting > version control > git点击file > setting > version control > github通过vcs(版本控制工具),把项目存到git仓库,点击VCS选择要保
2021-04-02 13:37:06 506
原创 记一次MapReduce Job运行报错
描述:MR Job提交运行, 错误退出,无报错信息。解决:先加上日志框架 <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> <version>1.7.25</version> </depend.
2021-03-04 14:03:03 1406 1
原创 log4j实践
#配置根logger,指定日志级别为info级别,指定使用的日志配置为logFile中的配置# log4j.rootLogger = [ level ] , appenderName, appenderName, …log4j.rootLogger=info,stdoutlog4j.logger.firstLogger = info,logFile1log4j.logger.secondLogger = info,logFile2log4j.logger.thirdLogger = info,lo
2021-02-24 14:44:01 72
原创 MySQL服务器重启后 一次故障修复
问题一:MySQL的主服务器重启后,服务启动不了,报错:[mysqladmin@cdh-01 ~]$ ./bin/mysqld_safe --defaults-file=/etc/my.cnf &[1] 3835[mysqladmin@cdh-01 ~]$ 2021-02-23T01:16:40.770189Z mysqld_safe Logging to '/usr/local/mysql/data/hostname.err'.2021-02-23T01:16:40.866450Z my
2021-02-23 10:05:52 266
原创 CDH 完全卸载脚本
CDH集群的安装部署对系统环境的影响非常大,在不重装操作系统的前提下,完全卸载干净是比较困难的。难点在于需要删除的东西太多,不删干净了非常容易造成安装失败。通过反复尝试,终于写了一个一键式删除CDH脚本,经过测试是可行的。删除脚本文件remove_cloudera.sh内容如下:#!/bin/bash# 停止CM服务service cloudera-scm-server stopservice cloudera-scm-agent stop# 卸载CM软件包yum -y remove.
2021-01-23 00:33:37 378
原创 CDH5.16.2 企业级真正离线部署
前言哎,Cloudera食言而肥,之前是CDH6.3.3开始取消免费版,现在成了所有版本(包括旧版)全部收费,资本的力量啊。不提了,完全内网环境下,还是可以使用的,本篇就来部署一下CDH5.16.2,之前有一篇CDH6.3.1部署提到过,而且目前公司使用的组件版本是基于CDH5.16.2的。...
2021-01-22 23:50:13 595
原创 MySQL 主从架构部署
需求:两台机器部署以下MySQL的主从架构:机器角色cdh001master 写服务cdh002slave 读服务部署:两台机器分别部署MySQL修改/etc/my.cnf 中的server-id,两个MySQL必须不同。master节点:su - mysqladminmysql -uroot -p# 创建repluser用户mysql> grant replication slave on *.* to repluser@'%' ide.
2021-01-21 15:51:42 180 2
原创 Flume 解决 HDFS Sink写入HDFS小文件的问题
使用Flume的HDFS Sink,将log文件中的数据写入HDFS,进到UI发现产生了大量的小文件,每个小文件都是1K多,而占一个128M的block。解决:关键是以下三个关键变量的配置,如果要按照某一项来,比如rollSize,则其他两项设为0。NameDefaultDescriptionhdfs.rollInterval30滚动当前文件前等待的秒数 ( 设为0 =从不根据时间间隔滚动 )hdfs.rollSize1024触发滚动的文件大小,以字节为单位.
2021-01-15 14:15:06 917
原创 httpd 与 nginx 同时存在,端口冲突解决
只要把httpd和nginx的默认80端口改为不一样的就可了,不能都为80。改完配置文件后,服务重启。解决1:修改nginx监听端口# 打开nginx配置文件vi /etc/nginx/nginx.conf# 修改服务server listen 为88server { listen 88 default_server; listen [::]:88 default_server;解决2:修改httpd监听端口# 打开httpd配.
2021-01-15 11:11:07 3619
原创 CentOS7 date命令总结
date 命令:Display the current time in the given FORMAT, or set the system date.date 语法:date [-u] [-d datestr] [-s datestr] [--utc] [--universal] [--date=datestr] [--set=datestr] \ [--help] [--version] [+FORMAT] [MMDDhhmm[[CC]YY][.ss]]-d datestr : 显示 d.
2021-01-14 17:19:28 1479
原创 Spark On HIve
Spark 中是有内置Hive的,但生产中,多使用外部部署好的Hive,这就需要Spark进行配置。解决步骤:ln -s /opt/hive-1.1.0-cdh5.15.1/conf/hive-site.xml /opt/spark/conf/hive-site.xmlln -s /opt/hadoop-2.6.0-cdh5.15.1/etc/hadoop/core-site.xml /opt/spark/conf/core-site.xmlln -s /opt/hadoop-2.6.0-cd.
2021-01-14 16:23:18 174
原创 Hive 引入第三方Jar包的方式
很多时候,我们需要在Hive中引入第三方jar包或者是自己编写的 UDF jar 包。在Hive中,涉及指定外部jar包的配置有两个地方:hive-site.xml中的hive.aux.jars.path此配置项对于hive server有效,但是是不会作用到hive shell.也就是说即使你在hive节点上配置了这一项,但是对于hive shell来说是无效的。注意:(1)目前只支持file://也就是本地文件,暂不支持HDFS,也不支持文件夹。(2)多个文件使用逗号分隔。(3)不能换.
2021-01-14 16:03:16 5796 2
原创 Hive 配置Json支持
log文件中的数据经常碰到 Json 格式,在 将log文件导入到Hive 中,并采用 Json 作为存储格式时,碰到乱码等情况。解决:这就需要建表时指定 Serde。Insert into 时,Hive 使用 json 格式进行保存;查询时,通过 json 库(需要导入)进行解析。Hive 默认输出是压缩格式,这里改成不压缩。导入数据# 建表语句:指定 SerDe ,使按照Json格式存储。create table tableName(col_name data_type,...)RO.
2021-01-14 15:15:10 268
原创 Grafana 实践(一)
前言Grafana的部署WebUI使用前言本篇主要讲解一下 Grafana 4.4 的部署及实践,涉及Grafana的部署、WebUI使用、Graph Panel使用、Table Panel使用 四个部分。Grafana部署平台为 CentOS7, 需提前安装 Docker。参考:Grafana 官网地址链接:https://grafana.com/docs/grafana/latest/Zabbix 官网地址连接:https://www.zabbix.com/documentation/4.
2021-01-14 14:20:01 245
原创 集群部署之旅(二)虚拟机克隆及集群准备
前言虚拟机克隆集群环境初始化前言根据上篇中已经安装好的apache1,克隆两台虚拟机apache2和apache3,共同组成一个集群。分为两部分,第一部分是虚拟机的克隆,第二部分是集群环境的初始化。虚拟机克隆虚拟机 ——》管理——》克隆2. 进入克隆向导,点击下一步3. 选择当前状态4. 选择完整克隆5. 输入虚拟机名称并选择指定位置点击完成,等待,关闭。7. 同样步骤,再克隆一台三台虚拟机组成的集群就初步ok了。集群环境初始化修改新主机名:克隆后.
2021-01-04 22:52:02 132
原创 Rundeck 部署
前言Rundeck是一款自动化运维工具,可以用来做大数据平台的任务调度,下面来部署一下。安装部署1.下载解压cd /opt# 创建rundeck文件夹mkdir rundeckcd /rundeck# 下载war包wget https://download.rundeck.org/war/rundeck-3.2.0-20191218.war# 第一次运行 解压 等待一会java -jar rundeck-3.2.0-20191218.war# 出现下面内容后 ctrl+z停止C
2020-12-31 15:23:50 456 1
原创 Superset 部署
前言Apache Superset 是一个开源的、现代的、轻量级 BI 分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。由于 Superset 能够对接常用的大数据分析工具,如 Hive、Kylin、Druid 等,且支持自定义仪表盘,故可作为数仓的可视化工具。上一篇中总结了grafana的部署,同样作为可视化应用,本篇来部署下superset。部署注意:使⽤用root⽤用户操作1.安装Python3环境准备的包yum -y in
2020-12-30 17:02:54 1050
原创 Grafana 部署+ cm 数据源
前言grafana 是一款采用 go 语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具,目前已经支持绝大部分常用的时序数据库。本章节将部署grafana,并接入cloudera manager数据源。grafana部署grafana部署在CentOS7上,从yum仓库按照,其他方式参考官网安装vim /etc/yum.repos.d/grafana.repo# 添加下面内容[grafana]name=grafanabaseurl=
2020-12-30 15:21:16 552
原创 集群部署之旅(一)VMware安装Centos7超详细过程
前言使用虚拟机安装CentOS7,额外克隆两台,组成三台小集群。准备好Vmware Workstation 和 CentOS7 的镜像。Vmware镜像虚拟机准备1.打开VMwear选择新建虚拟机2.选择典型3.选择稍后安装操作系统4. 选择Linux操作系统和CentOS7 64位5.虚拟机名称和位置6.磁盘设置,40G,单个文件(多个也可以,看个人想法)7.准备好后,点完成8.硬件设置及添加CentOS7镜像文件右键虚拟机,选择设置,进入到虚拟机的设置
2020-12-29 23:47:37 388
原创 Spark Core 算子总结
Transformation算子Transformation 操作是延迟计算的(lazy),也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。map对RDD中的每个元素都执行一个指定函数来产生一个新的RDD,任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。val a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)
2020-12-25 16:49:28 378
原创 Vmware 虚拟机三种网络模式详解
Vmware 虚拟机三种网络模式详解前言一、Bridged(桥接模式)二、NAT(地址转换模式)三、Host-Only(仅主机模式)前言vmware为我们提供了三种网络工作模式,它们分别是:Bridged(桥接模式)、NAT(网络地址转换模式)、Host-Only(仅主机模式)。打开vmware虚拟机,可以在选项栏的“编辑”下的“虚拟网络编辑器”中看到VMnet0(桥接模式)、VMnet1(仅主机模式)、VMnet8(NAT模式),VMnet1表示的是用于仅主机模式下的虚拟交换机;VMnet8表示的是
2020-12-07 14:51:19 2572 2
原创 CentOs7 HBase集群部署
前言HBase基于Hadoop和zookeeper,每台机器必须首先部署好Hadoop和zookeeper,并提前启动安装cdh01# 解压安装tar -zxvf hbase-1.2.0-cdh5.15.1.tar.gz -C /opt/# 配置hbase-env.sh # 1.添加JAVA_HOME export JAVA_HOME=/usr/java/jdk1.8.0_261 # 2.注释掉下面两句export,因为我们用jdk1.8 # Configure PermSi
2020-12-07 11:21:46 292
原创 CentOs7 Hadoop集群部署
前言Hadoop单节点伪分布部署参考这篇,本篇来进行真正多节点部署。角色分配cdh01,cdh02,cdh03nodecdh01cdh02cdh03HDFSNameNode、DataNodeSecondNameNode、DataNodeDataNodeYARNResourceManager、NodeManagerNodeManagerNodeManager解压安装及配置cdh01:tar -zxvf hadoop-2.6.0-cdh5.15.1
2020-12-06 22:10:37 72
原创 CentOs7集群通用配置
集群服务器直接免密登录# /root/.ssh/ 目录下 生成公钥 私钥ssh-keygen -t rsa # 视具体情况yes或者回车lsauthorized_keys id_rsa id_rsa.pub known_hosts# 分别为:授权码 私钥 公钥 记录其他通过ssh访问过此用户所在服务器(或者机器,虚拟机)的计算机的公钥# 多台虚拟机一起做 互相拷贝公钥到对方的授权码中ssh-copy-id hostname/ip # 目标机器的ip地址.
2020-12-01 23:31:04 355
原创 centos7 zookeeper 3.4.10 集群部署
前言zookeeper的3.4.10是非常经典且广泛被采用的版本,结合官网文档进行部署下载安装官网下载链接传输到虚拟机指定位置,并解压到指定路径tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/修改配置...
2020-11-30 22:09:28 74
原创 Docker之旅(五)DockerFile
DockerFiledockerfile是用来构建docker镜像的文件!命令参数脚本!构建步骤:1、 编写一个dockerfile文件2、 docker build 构建称为一个镜像3、 docker run运行镜像4、 docker push发布镜像(DockerHub 、阿里云仓库)DockerFile构建过程基础知识:1、每个保留关键字(指令)都是必须是大写字母2、执行从上到下顺序3、#表示注释4、每一个指令都会创建提交一个新的镜像,并提交!DockerFile的指令F
2020-11-27 15:27:42 132
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人