涵sir-CSDN博客

原创启动hadoop，jps没有datanode

启动./start-dfs.sh后jps发现没有datanode进程。查看日志2018-02-27 13:54:27,918 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting2018-02-27 13:54:29,140 INFO org.apache.hadoop.hdfs.server.common.Storage: Lock on /home/hadoop/app/tmp/dfs/data/in_use.lock

2021-09-02 11:24:24 2551

原创 grafana-reporter

功能：将grafana dashboard导出为pdf安装部署reporteryum install go -yyum install -y gityum install -y texlive-latexyum install texlive texlive-science -ygo get github.com/IzakMarais/reporter/...go install -v github.com/IzakMarais/reporter/cmd/grafana-reporterno

2021-08-24 11:26:42 1262

原创 Spark 配置历史服务器

类似Hadoop，Spark也有自己的history server，这里我们就来配置下：修改 spark-defaults.conf.template 文件名为 spark-defaults.confmv spark-defaults.conf.template spark-defaults.conf修改 spark-default.conf 文件，配置日志存储路径spark.eventLog.enabled truespark.eventLog.dir

2021-07-20 16:28:31 1098

原创 Hive 外部表&内部表&临时表

外部表&内部表hive建一个内部表，如果不加location，就会放到默认路径/user/hivecreate table test(id int,name string) row format delimited fields terminated by ',';hdfs上数据导入表testload data inpath '/test.txt' into table test;然后观察，hdfs上的/test.txt消失了，去hive默认路径下找，发现文件被转移到了/user/

2021-07-06 15:40:18 1218

原创 hadoop fs -help 命令明细

[cluster@cdh-01 ~]$ hadoop fs -helpUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... | OCTAL

2021-07-06 09:00:07 450

原创 Hive mapreduce job报错解决

问题描述：使用beeline连接hiveserver2，将HDFS上的json格式数据导入到一个临时表，然后再通过insert into ... select ...将数据导入正式表中，但在这一步Hive报错，Error信息为：ERROR : FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask详细报错如下:INFO : Completed compiling command.

2021-07-05 17:22:04 1907

原创 CentOS7系统编码

编码决定了一份文件是否会乱码，编码可以在三个地方设置：代码设置终端设置系统设置代码中可以指定编码格式，终端的设置也比较方便，这里，看一下centos7中系统编码的设置。使用 loacle 命令查看系统编码：[root@node2 ~] localeLANG=zh_CN.UTF-8LC_CTYPE="zh_CN.UTF-8"LC_NUMERIC="zh_CN.UTF-8"LC_TIME="zh_CN.UTF-8"LC_COLLATE="zh_CN.UTF-8"LC_MONETARY

2021-07-02 09:47:47 2764

原创记一次 Flume file channel 故障修复

故障：Taildir Source 通过File Channel 向HDFS Sink 写入数据，因为小文件过多，就把配置文件进行了修改，修改过后，重启flume agent，发现flume log报错，如下：02 七月 2021 09:16:13,959 ERROR [PollableSourceRunner-TaildirSource-r1] (org.apache.flume.source.taildir.TaildirSource.process:236) - Unable to tail fi

2021-07-02 09:30:48 2059 1

原创 Hive源码编译导入Idea 运行Cli 读取服务端数据

需求：IDEA中导入Hive源码，在IDEA中输入SQL: select count(1) from emp emp表是在你的服务器hive中的，结果在IDEA终端展示编译源码下载hive对应版本的源码，这里我们使用hive-1.1.0-cdh5.16.2，到 cloudera/hive 的GitHub地址下载，解压后，进入根路径下Git Bash Here。mvn clean package -Phadoop-2,dist -DskipTests -Dmaven.javadoc.sk

2021-04-08 13:47:13 421

原创把idea中的项目导入github仓库中步骤详解

将在Idea开发的代码放到GitHub托管是很方便的。前提是已经下载过git并进行配置的，并且注册过github，再来进行以下idea的操作git的操作部分详情看这里1.检查自己的idea是否登录github打开idea，点击file > setting > version control > git点击file > setting > version control > github通过vcs（版本控制工具），把项目存到git仓库，点击VCS选择要保

2021-04-02 13:37:06 506

原创 RabbitMQ实现即时通讯

使用RabbitMQ实现即时通讯参考文章RabbitMQ实现即时通讯居然如此简单!

2021-04-02 13:31:28 497

原创记一次MapReduce Job运行报错

描述：MR Job提交运行，错误退出，无报错信息。解决：先加上日志框架 <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> <version>1.7.25</version> </depend.

2021-03-04 14:03:03 1406 1

原创 log4j实践

#配置根logger，指定日志级别为info级别，指定使用的日志配置为logFile中的配置# log4j.rootLogger = [ level ] , appenderName, appenderName, …log4j.rootLogger=info,stdoutlog4j.logger.firstLogger = info,logFile1log4j.logger.secondLogger = info,logFile2log4j.logger.thirdLogger = info,lo

2021-02-24 14:44:01 72

原创 MySQL服务器重启后一次故障修复

问题一：MySQL的主服务器重启后，服务启动不了，报错：[mysqladmin@cdh-01 ~]$ ./bin/mysqld_safe --defaults-file=/etc/my.cnf &[1] 3835[mysqladmin@cdh-01 ~]$ 2021-02-23T01:16:40.770189Z mysqld_safe Logging to '/usr/local/mysql/data/hostname.err'.2021-02-23T01:16:40.866450Z my

2021-02-23 10:05:52 266

原创 CDH 完全卸载脚本

CDH集群的安装部署对系统环境的影响非常大，在不重装操作系统的前提下，完全卸载干净是比较困难的。难点在于需要删除的东西太多，不删干净了非常容易造成安装失败。通过反复尝试，终于写了一个一键式删除CDH脚本，经过测试是可行的。删除脚本文件remove_cloudera.sh内容如下：#!/bin/bash# 停止CM服务service cloudera-scm-server stopservice cloudera-scm-agent stop# 卸载CM软件包yum -y remove.

2021-01-23 00:33:37 378

原创 CDH5.16.2 企业级真正离线部署

前言哎，Cloudera食言而肥，之前是CDH6.3.3开始取消免费版，现在成了所有版本（包括旧版）全部收费，资本的力量啊。不提了，完全内网环境下，还是可以使用的，本篇就来部署一下CDH5.16.2，之前有一篇CDH6.3.1部署提到过，而且目前公司使用的组件版本是基于CDH5.16.2的。...

2021-01-22 23:50:13 595

原创 MySQL 主从架构部署

需求：两台机器部署以下MySQL的主从架构：机器角色cdh001master 写服务cdh002slave 读服务部署：两台机器分别部署MySQL修改/etc/my.cnf 中的server-id，两个MySQL必须不同。master节点：su - mysqladminmysql -uroot -p# 创建repluser用户mysql> grant replication slave on *.* to repluser@'%' ide.

2021-01-21 15:51:42 180 2

原创 Flume 解决 HDFS Sink写入HDFS小文件的问题

使用Flume的HDFS Sink，将log文件中的数据写入HDFS，进到UI发现产生了大量的小文件，每个小文件都是1K多，而占一个128M的block。解决：关键是以下三个关键变量的配置，如果要按照某一项来，比如rollSize，则其他两项设为0。NameDefaultDescriptionhdfs.rollInterval30滚动当前文件前等待的秒数 ( 设为0 =从不根据时间间隔滚动 )hdfs.rollSize1024触发滚动的文件大小，以字节为单位.

2021-01-15 14:15:06 917

原创 httpd 与 nginx 同时存在，端口冲突解决

只要把httpd和nginx的默认80端口改为不一样的就可了，不能都为80。改完配置文件后，服务重启。解决1：修改nginx监听端口# 打开nginx配置文件vi /etc/nginx/nginx.conf# 修改服务server listen 为88server { listen 88 default_server; listen [::]:88 default_server;解决2：修改httpd监听端口# 打开httpd配.

2021-01-15 11:11:07 3619

原创 CentOS7 date命令总结

date 命令：Display the current time in the given FORMAT, or set the system date.date 语法：date [-u] [-d datestr] [-s datestr] [--utc] [--universal] [--date=datestr] [--set=datestr] \ [--help] [--version] [+FORMAT] [MMDDhhmm[[CC]YY][.ss]]-d datestr : 显示 d.

2021-01-14 17:19:28 1479

原创 Spark On HIve

Spark 中是有内置Hive的，但生产中，多使用外部部署好的Hive，这就需要Spark进行配置。解决步骤：ln -s /opt/hive-1.1.0-cdh5.15.1/conf/hive-site.xml /opt/spark/conf/hive-site.xmlln -s /opt/hadoop-2.6.0-cdh5.15.1/etc/hadoop/core-site.xml /opt/spark/conf/core-site.xmlln -s /opt/hadoop-2.6.0-cd.

2021-01-14 16:23:18 174

原创 Hive 引入第三方Jar包的方式

很多时候，我们需要在Hive中引入第三方jar包或者是自己编写的 UDF jar 包。在Hive中，涉及指定外部jar包的配置有两个地方：hive-site.xml中的hive.aux.jars.path此配置项对于hive server有效，但是是不会作用到hive shell.也就是说即使你在hive节点上配置了这一项，但是对于hive shell来说是无效的。注意：（1）目前只支持file://也就是本地文件，暂不支持HDFS，也不支持文件夹。（2）多个文件使用逗号分隔。（3）不能换.

2021-01-14 16:03:16 5796 2

原创 Hive 配置Json支持

log文件中的数据经常碰到 Json 格式，在将log文件导入到Hive 中，并采用 Json 作为存储格式时，碰到乱码等情况。解决：这就需要建表时指定 Serde。Insert into 时，Hive 使用 json 格式进行保存；查询时，通过 json 库（需要导入）进行解析。Hive 默认输出是压缩格式，这里改成不压缩。导入数据# 建表语句：指定 SerDe ，使按照Json格式存储。create table tableName(col_name data_type,...)RO.

2021-01-14 15:15:10 268

原创 Shell 脚本定时采集 log 到 Hive

面向对象

2021-01-14 15:03:20 164

原创 Grafana 实践（一）

前言Grafana的部署WebUI使用前言本篇主要讲解一下 Grafana 4.4 的部署及实践，涉及Grafana的部署、WebUI使用、Graph Panel使用、Table Panel使用四个部分。Grafana部署平台为 CentOS7，需提前安装 Docker。参考：Grafana 官网地址链接：https://grafana.com/docs/grafana/latest/Zabbix 官网地址连接：https://www.zabbix.com/documentation/4.

2021-01-14 14:20:01 245

原创集群部署之旅（二）虚拟机克隆及集群准备

前言虚拟机克隆集群环境初始化前言根据上篇中已经安装好的apache1，克隆两台虚拟机apache2和apache3，共同组成一个集群。分为两部分，第一部分是虚拟机的克隆，第二部分是集群环境的初始化。虚拟机克隆虚拟机 ——》管理——》克隆2. 进入克隆向导，点击下一步3. 选择当前状态4. 选择完整克隆5. 输入虚拟机名称并选择指定位置点击完成，等待，关闭。7. 同样步骤，再克隆一台三台虚拟机组成的集群就初步ok了。集群环境初始化修改新主机名：克隆后.

2021-01-04 22:52:02 132

原创 Java之旅（二）面向对象

前言面向对象类和对象前言Java面向对象：对象、类、继承、重载、重写、多态、抽象、封装、接口等。面向对象类和对象

2021-01-02 22:09:45 247

原创 Java之旅（一）Java基础

基本语法

2020-12-31 22:39:03 231

原创 Rundeck 部署

前言Rundeck是一款自动化运维工具，可以用来做大数据平台的任务调度，下面来部署一下。安装部署1.下载解压cd /opt# 创建rundeck文件夹mkdir rundeckcd /rundeck# 下载war包wget https://download.rundeck.org/war/rundeck-3.2.0-20191218.war# 第一次运行解压等待一会java -jar rundeck-3.2.0-20191218.war# 出现下面内容后 ctrl+z停止C

2020-12-31 15:23:50 456 1

原创 Superset 部署

前言Apache Superset 是一个开源的、现代的、轻量级 BI 分析工具，能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘，且拥有友好的用户界面，十分易用。由于 Superset 能够对接常用的大数据分析工具，如 Hive、Kylin、Druid 等，且支持自定义仪表盘，故可作为数仓的可视化工具。上一篇中总结了grafana的部署，同样作为可视化应用，本篇来部署下superset。部署注意：使⽤用root⽤用户操作1.安装Python3环境准备的包yum -y in

2020-12-30 17:02:54 1050

原创 Grafana 部署+ cm 数据源

前言grafana 是一款采用 go 语言编写的开源应用，主要用于大规模指标数据的可视化展现，是网络架构和应用分析中最流行的时序数据展示工具，目前已经支持绝大部分常用的时序数据库。本章节将部署grafana，并接入cloudera manager数据源。grafana部署grafana部署在CentOS7上，从yum仓库按照，其他方式参考官网安装vim /etc/yum.repos.d/grafana.repo# 添加下面内容[grafana]name=grafanabaseurl=

2020-12-30 15:21:16 552

原创集群部署之旅（一）VMware安装Centos7超详细过程

前言使用虚拟机安装CentOS7，额外克隆两台，组成三台小集群。准备好Vmware Workstation 和 CentOS7 的镜像。Vmware镜像虚拟机准备1.打开VMwear选择新建虚拟机2.选择典型3.选择稍后安装操作系统4. 选择Linux操作系统和CentOS7 64位5.虚拟机名称和位置6.磁盘设置，40G，单个文件（多个也可以，看个人想法）7.准备好后，点完成8.硬件设置及添加CentOS7镜像文件右键虚拟机，选择设置，进入到虚拟机的设置

2020-12-29 23:47:37 388

原创 Spark Core 算子总结

Transformation算子Transformation 操作是延迟计算的（lazy），也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。map对RDD中的每个元素都执行一个指定函数来产生一个新的RDD，任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。val a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)

2020-12-25 16:49:28 378

原创 Hive 操作

Hive 操作记录

2020-12-24 16:33:31 357

原创 Vmware 虚拟机三种网络模式详解

Vmware 虚拟机三种网络模式详解前言一、Bridged（桥接模式）二、NAT（地址转换模式）三、Host-Only（仅主机模式）前言vmware为我们提供了三种网络工作模式，它们分别是：Bridged（桥接模式）、NAT（网络地址转换模式）、Host-Only（仅主机模式）。打开vmware虚拟机，可以在选项栏的“编辑”下的“虚拟网络编辑器”中看到VMnet0（桥接模式）、VMnet1（仅主机模式）、VMnet8（NAT模式），VMnet1表示的是用于仅主机模式下的虚拟交换机；VMnet8表示的是

2020-12-07 14:51:19 2572 2

空空如也

空空如也