自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

z7one

coder

  • 博客(79)
  • 资源 (2)
  • 收藏
  • 关注

转载 Hadoop集群一般需要关注的几个重要指标

原文来自hackershell,转载请注明出处通用监控指标对于每个RPC服务应该监控RpcProcessingTimeAvgTime(PRC处理的平均时间)通常hdfs在异常任务突发大量访问时,这个参数会突然变得很大,导致其他用户访问hdfs时,会感觉到卡顿,从而影响任务的执行时间CallQueueLength(RPC Call队列的长度)如果callqueue队列数值一直处于较高的水平,例如对于NN来说CallQueue的长度等于handler*100,也就是说NN可能收到了大量的

2021-04-19 22:06:38 957

转载 一套很专业的监控方案:HDFS监控落地背后的思考

HDFS监控挑战 HDFS是Hadoop生态的一部分,监控方案不仅需适用HDFS,其他组件如Yarn、Hbase、Hive等,也需适用 HDFS API提供的指标较多,部分指标没必要实时采集,但故障时需能快速获取到 Hadoop相关组件的日志,比较重要,如问题定位、审计等 监控方案不仅能满足监控本身,故障定位涉及指标也应覆盖 Hadoop监控方案Hadoop监控数据采集通过HTTP API,或者JMX。实际中,用到比较多的产品主要有:CDH、Am...

2021-04-19 22:04:04 514

转载 Hadoop NameNode 高可用 (High Availability) 实现解析

问题导读:1.怎样实现NameNode 主备切换?2.怎样实现NameNode 共享存储?3.NameNode 高可用运维中的注意事项有哪些?NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,..

2021-04-12 13:01:33 656

转载 MySQL JDBC 及其连接池--转载

JDBCJDBC,即Java数据库连接,是SUN公司推出的Java访问数据库的标准规范(接口)。1. JDBC是一种用于执行SQL语句的Java API。2. JDBC可以为多种关系数据库提供统一访问入口。3. JDBC是由一组Java工具类和接口组成。JDBC开发步骤1. 注册驱动。2. 获得连接。3. 获得语句执行者。4. 执行sql语句。5. 处理结果。6. 释放资源。1、导入jar包a、创建lib目录,用于存放当前项目需要的所有jar包b、选择jar包,右键执行 bu

2021-03-29 15:05:12 103

转载 Linux字符串截取和处理命令 (cut、printf、awk、sed、sort、wc)

文章目录Linux字符串截取和处理命令 (cut、printf、awk、sed、sort、wc) 笔记1.cut 命令2. printf 命令3. awk 命令4. sed 命令5. sort 命令6. wc命令7.Linux字符串截取命令1.cut 命令cut [选项] 文件名-f 列号  #提取第几列(分隔符默认为\t)-d 分隔符  #指定分隔符12例如:cut -f 2 a.txt  #截取文件a.txt内容的第二列(列号从1开始)   cut -f 2,4 a..

2021-03-25 18:31:41 938

原创 hive 优化设置

#添加第三方jar包, 添加临时函数add jar ***.jar;#启动非严格模式,可以进行笛卡尔积连接(含非等值连接),order by不必接limit, 分区表查询where中不一定非要加分区字段set hive.mapred.mode =nonstrict;#MR框架配置set hive.execution.engine=mr; --设置执行引擎为mapreduceset mapreduce.framework.name=yarn; --设置框架为新的yarn框架#...

2021-03-04 16:11:35 392 1

转载 #!/bin/bash 和 #!/usr/bin/env bash 的区别

目录起因区别`#!/bin/bash``#!/usr/bin/env bash``#!/bin/bash` 和 `#!/usr/bin/env bash` 到底该用哪个`#!/usr/bin/env bash` 的优缺点`#!/bin/bash` 的优缺点到底用哪个参考资料起因为什么会想到写 #!/bin/bash 和 #!/usr/bin/env bash 的区别呢?还要从一次装插件的过程说起。由于刚开始接触 Shell Script 不久,对一些语法用法等还不是很熟悉,所以,当时

2021-03-04 15:32:42 1052 1

转载 详解shell中source、sh、bash、./执行脚本的区别

1、source命令用法:  source FileName  作用:在当前bash环境下读取并执行FileName中的命令。该filename文件可以无"执行权限" 注:该命令通常用命令“.”来替代。 如:source .bash_profile . .bash_profile两者等效。 source(或点)命令通常用于重新执行刚修改的初始化文档。 source命令(从 C Shell 而来)是bash shell的内置命令。 点...

2021-03-04 13:44:32 488 1

转载 shell中如何判断一个变量是否为空

1.变量通过" "引号引起来 1 2 3 4 5 6 7 #!/bin/sh para1= if [ ! -n "$para1" ]; then echo "IS NULL" else echo "NOT NULL" fi 【输出结果】"IS NULL"2.直接通过变量判断 1 2 3 4 5 6 7...

2021-03-04 11:01:11 2939 1

转载 hive数据清洗过程csv表格字段出现分割符逗号的解决方案--转载

在创建表进行数据清洗的过程中 csv表格字段中可能存在csv表格的分割符号 ,如图此时如果还是按照原来的写法:%hivecreate external table if not exists ext_transaction_details(transaction_id string,customer_id string,store_id string,price string,product string,`date` string,time string)row format

2021-03-02 19:33:56 956

转载 真正让你明白Hive参数调优系列1:控制map个数与性能调优参数--转载

1.Hive有哪些参数,如何查看这些参数Hive自带的配置属性列表封装在HiveConfJava类中,因此请参阅该HiveConf.java文件以获取Hive版本中可用的配置属性的完整列表。具体可以下载hive.src通过eclipse查看。全部属性有上千个吧,一般Hive的自带属性都是以hive.开头的,每个属性且自带详细的描述信息,其次Hive官网也有,但是属性不是特别全。Hive官方参数网址Hive除了自身带了一些配置属性,因为其底层使用的是hadoop(HDFS,MR,YARN),所以有些HAD

2021-02-28 22:10:51 391

转载 HBase-GC性能优化

1 JVM调优1.1 堆内存默RegionServer的堆内存为1G,这里Memstore默认站40%,也就是400M,在实际场景中很容易因为Memstore太小导致阻塞,修改参数,在cong/hbase-env.sh:export HBASE_HEAPSIZE=8G该参数会将Master和RegionServer的堆内存都设置为8G,所以有需要的话尽量使用专用的堆内存设置项:export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -Xms4g -

2021-02-24 15:13:52 463

转载 Spark3-AQE-数据倾斜Join优化

Adaptive Query Exection(自适应查询计划)简称AQE,在最早在spark 1.6版本就已经有了AQE;到了spark 2.x版本,intel大数据团队进行了相应的原型开发和实践;到了spark 3.0时代,AQE终于面向用户可以使用了注:以下代码分析基于Spark3.0.1版本1 Join的自适应数据倾斜处理代码位于sql.core模块的org.apache.spark.sql.execution.adaptive.OptimizeSkewedJoin主要原理就是基.

2021-02-24 15:09:37 1078

转载 Hive调优-01

Hive调优前言 1.数据的压缩与存储格式 2.合理利用分区分桶 3.hive参数优化 4.sql优化 4.1 where条件优化 4.2 union优化 4.3 count distinct优化 4.4 用in 来代替join 4.5 优化子查询 4.6 join 优化 5.数据倾斜 5.1 sql本身导致的倾斜 5.2 业务数据本身的特性(存在热点key) 5.3 开启数据倾斜时负载均衡 5.4 控制空值分布 6.合并小文件 7.查看

2021-02-22 14:58:41 62

转载 shell判断给定日期是否是周末or月末

一、shell 判断某日期是否是周日1、shell 判断某日期是周几通过date命令获取,获取结果:0为星期日,1-6为星期一至星期六。 date +%w 取得当天是星期几 date -d 20120311 +%w 取得2012年3月11日是星期几date -d 2012-03-11 +%w 取得2012年3月11日是星期几date -d $datebuf +%w 取得datebuf是星期几2、shell 判断某日期是否是周日########################

2021-02-04 16:23:49 2320

转载 0483-如何指定PySpark的Python运行环境

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1文档编写目的在使用PySpark进行开发时,由于不同的用户使用的Python环境不同,有基于Python2的开发也有基于Python3的开发,这个时候会开发的PySpark作业不能同时兼容Python2和Python3环境从而导致作业运行失败。那Fayson接下来.

2021-02-03 11:55:32 549

转载 sparksql读取parquet格式hive表的配置

使用sparksql访问几个hive表join的情况时结果为空,且这个sql在hive里执行是成功的。 val sparkSession = SparkSession .builder() .config("jars","lib/*") .appName("Spark Hive Example") .enableHiveSupport() .getOrCreate() sparkSession.sql("select t1.

2021-01-22 14:29:51 607

转载 PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理

文章目录1、-------- 查 -------- --- 1.1 行元素查询操作 --- **像SQL那样打印列表前20元素** **以树的形式打印概要** **获取头几行到本地:** **查询总行数:** 取别名 **查询某列为null的行:** **输出list类型,list中每个元素是Row类:** 查询概况 去重set操作 随机抽样

2021-01-08 17:53:47 1426

转载 pyspark dataframe 字段类型转换 pandas和pyspark的dataframe互转

知识点:1、使用pyspark读取csv:spark.read.format("csv").load('/user/data.csv',header=True, inferSchema="true")2、dataframe补充空值:fillna()3、dataframe字段表示方式:"APP_HOBY_CASH_LOAN"或df.APP_HOBY_CASH_LOAN或data_df["APP_HOBY_CASH_LOAN"]pysparkdataframe使用astype实现data..

2021-01-08 17:47:28 1391

转载 Spark(Hive) SQL数据类型使用详解(Python)

Spark SQL使用时需要有若干“表”的存在,这些“表”可以来自于Hive,也可以来自“临时表”。如果“表”来自于Hive,它的模式(列名、列类型等)在创建时已经确定,一般情况下我们直接通过Spark SQL分析表中的数据即可;如果“表”来自“临时表”,我们就需要考虑两个问题:(1)“临时表”的数据是哪来的?(2)“临时表”的模式是什么?通过Spark的官方文档可以了解到,生成一张“临时表”需要两个要素:(1)关联着数据的RDD;(2)数据模式;也就是说,我...

2021-01-05 14:04:02 728

转载 pyspark建立RDD以及读取文件成dataframe

(2)pyspark建立RDD以及读取文件成dataframe目录别人的相关代码文件:https://github.com/bryanyang0528/hellobi/tree/master/pysparkTop~~1、启动spark(1)SparkSession是 Spark SQL 的入口。(2)通过SparkSession.builder来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession。Builder 是 ...

2021-01-05 00:36:38 683

原创 hive中两种日期格式的转换

在解析埋点数据时会遇到两种不同的日期格式:yyyymmdd和yyyy-mm-dd,此类型之间的转换主要有两种思路:第一种方法:from_unixtime+unix_timestamp --20180905转成2018-09-05 select from_unixtime(unix_timestamp('20180905','yyyymmdd'),'yyyy-mm-dd') from dw.ceshi_data --结果如下: 2018-09-05.

2020-12-31 16:15:07 5522

转载 【hive】String to Date 转化大全

原文链接:http://bigdataprogrammers.com/string-date-conversion-hive/Input column name: dt (String).Replace dt with your column name.Input Format Code Output Format ddMMyyyy to_date(from_unixtime(UNIX_TIMESTAMP(dt,’ddMMyyyy’))) yyyy-MM-d.

2020-12-31 16:13:54 1800

转载 spark-core-转载

第1章 RDD 概念1.1 RDD 为什么会产生  RDD:Resilient Distributed Dataset 弹性分布式数据集  RDD 是 Spark 的基石,是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢?  Hadoop 的 MapReduce 是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备。数据更多面临的是一次性处理。  MR 的这种方式对数据领域两种常见的操作不是很高效。第一种是迭

2020-09-18 15:21:34 161

原创 关于RDD的打印输出 collect 和 foreach print

Printing elements of an RDDAnother common idiom is attempting to print out the elements of an RDD using rdd.foreach(println) or rdd.map(println). On a single machine, this will generate the expected output and print all the RDD’s elements. However, in cl

2020-09-18 11:12:35 686

转载 spark-yarn 任务提交详解

Spark支持3种集群管理器(Cluster Manager)分别为:Standalone:独立模式,Spark 原生的简单集群管理器,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统,使用 Standalone 可以很方便地搭建一个集群; Hadoop YARN:统一的资源管理机制,在上面可以运行多套计算框架,如 MR、Storm等。根据 Driver 在集群中的位置不同,分为 yarn client 和 yarn cluster; Apache Mesos:一个强大的分布

2020-09-14 15:14:58 585

转载 Yarn详解--转载

一、Yarn架构Yarn架构设计也是主从架构,分为Resource Manager(RM)和Node Manager(NM),其中RM主要负责应用管理和资源调度,NM主要负责容器和作业。1、Yarn架构介绍ResourceManager(RM):  负责对各个Node Manager(NM)上的资源进行统一管理和调度,将ApplicationMaster(AM)分配空闲的Container运行并监控其运行状态。对AM申请的资源请求分配相应的空闲Container。主要由两个组件构成:调.

2020-09-14 14:28:37 302

转载 Job提交到Yarn过程详解--转载

主要组件介绍: Yarn是个资源管理,任务调度的框架,主要包括三大模块:ResouceManager,NodeManager,ApplicationMaster ResouceManager:资源管理器,整个集群资源的协调者,调度者,管理者 NodeManager:NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;同时会接收并处理来自AM的Container 启动/停止等请求。 Applicat...

2020-09-14 14:17:37 201

转载 SparkStreaming--转载

SparkStreamingSparkStreaming是一种微批处理,准实时的流式框架。数据来源包括:Kafka,Flume,TCP sockets,Twitter,ZeroMQ等 SparkStreaming与storm的区别: SparkStreaming微批处理数据,storm按条处理数据 SparkStreaming支持稍复杂的逻辑 SparkStreaming与storm都支持资源动态调整和事务机制 SparkStreaming的处.

2020-09-11 16:41:42 144

原创 spark中map与flatMap的区别

作为spark初学者对,一直对map与flatMap两个函数比较难以理解,这几天看了和写了不少例子,终于把它们搞清楚了两者的区别主要在于action后得到的值例子:import org.apache.spark.{SparkConf, SparkContext}object MapAndFlatMap { def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().se.

2020-09-11 10:37:12 1609

原创 maven清除下载失败的jar包

具体表现在Maven仓库中如果看到jar包或其他相关文件是以“lastUpdated”作为扩展名结尾,说明jar包或其他相关文件下载失败。原因分析Maven在下载jar包的过程中,文件会以lastUpdated作为临时扩展名。文件下载完成后,Maven会将“lastUpdated”扩展名去掉。如果下载一半连不上网,导致下载失败,那么Maven就放任文件保持临时扩展名“lastUpdated”不管。当我们下一次强制要求Maven重新下载jar包时候,Maven看到这个文件以“lastUpd

2020-09-11 10:31:05 1532

转载 Apache Kafka 入门 - Kafka命令详细介绍-- 转

Apache Kafka 入门Apache Kafka 入门大概分为5篇博客,内容都比较基础,计划包含以下内容:Kafka的基本配置和运行 Kafka命令详细介绍 Kafka-manager的基本配置和运行 Kafka API 简单用法 Spring Boot 集成KafkaKafka支持Linux和WIndows环境,本文运行环境使用Linux(CentOS)。本篇为第二篇。Kafka命令行详细介绍常用的几个命令如下:kafka-server-start.sh kafk

2020-09-08 14:52:38 300

原创 shell 查找文本字符

grep -wq "hello world" a.txt && echo "contain"||echo "not contain"grep -wq "2020-07-21" scheduler.txt && echo "yes"||echo "no"v_time=`date "+%Y-%m-%d %H:%M:%S"`echo `date "+%Y-%m-%d %H:%M:%S"`

2020-09-08 11:11:00 677

转载 canal简单安装使用--转载

canal简单安装使用canal简介:https://github.com/alibaba/canal1、数据库配置首先使用canal需要修改数据库配置[mysqld]log-bin=mysql-bin # 开启 binlogbinlog-format=ROW # 选择 ROW 模式server_id=1 # 配置 MySQL replaction 需要定义,不要和 canal 的 slaveId 重复创建canal数据库用户CREATE USER canal IDENTI

2020-09-07 18:29:13 178

转载 PySaprk 将 DataFrame 数据保存为 Hive 分区表--转载

创建 SparkSessionfrom pyspark.sql import SparkSessionspark = SparkSession.builder.enableHiveSupport().appName('test_app').getOrCreate()sc = spark.sparkContexthc = HiveContext(sc)1. Spark创建分区表# 可以将append改为overwrite,这样如果表已存在会删掉之前的表,新建表df.write.sa

2020-09-04 11:22:27 1356

转载 pyspark-Sparkconf()--转载

from pyspark import SparkContext, SparkConffrom pyspark.sql import SparkSessiondef create_sc(): sc_conf = SparkConf() sc_conf.setMaster('spark://master:7077') sc_conf.setAppName('my-app') sc_conf.set('spark.executor.memory', '2g') #ex.

2020-09-04 11:16:20 793

转载 Java 读取 Properties 文件--转载

文章目录读取方式 一、Java 原生 一、基于ClassLoder读取配置文件 二、基于 InputStream 读取配置文件 三、通过 java.util.ResourceBundle 类来读取,这种方式比使用 Properties 要方便一些 二、Spring 感谢读取方式一、Java 原生利用java.util自带的Properties类读取Properties类的load方法提供了两种读取文件的方式:一、基于ClassLoder读取配.

2020-09-03 14:26:03 76

转载 打开及关闭kafka --转载

在$KAFKA_HOME/bin下新建如下脚本文件start-kafka.sh #!/bin/bash BROKERS="cluster1 cluster2 cluster3" APPHOME="/usr/local/kafka_2.10-0.8.2.1" APP_NAME="kafka_2.10-0.8.2.1" for i in $BROKERS do echo "Starting ${APP_NAME} ...

2020-09-02 10:27:12 1164

转载 史上最全的分布式数据同步中间间canal 之入门篇--转载

什么是canalcanal是纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL如上图:canal 模拟 MySQL slave 的交互协议,伪装自己为 MySQL slave ,向 MySQL master 发送dump 协议canal 搭建搭建mysql环境对于自建 MySQL , 需要先开启 Binlog 写入功能,配置 binlog-format 为 ROW 模式,my.cnf 中配置如下[mysqld]log-b..

2020-08-27 17:29:52 282

转载 阿里云服务器如何开放端口--转载

阿里云服务器如何开放端口,这里我将开放8082端口,我们来看下吧方法/步骤 登录阿里云服务器并进入控制台,点击【云服务器ECS】。 在【云服务器ECS】点击【实例】并跳转到实例列表。 在实例列表找到要开放端口的云服务器实例。并点击后面的【更多】--》【网络和安全组】--》【安全组配置】。 在【本实例安全组】内点击【配置规则】打开【安全组规则】。这里有出\入的方向,这里我开放的是8082端口,属于入方向的。在这里可以新增规则,这里为了方便直接对已有的规

2020-08-27 17:12:58 2601

MobaXterm_Portable_v20.2.zip.7z

1. 功能十分强大,支持SSH,FTP,串口,VNC,X server等功能; 2. 支持标签,切换也十分方便; 3. 众多快捷键,操作方便; 4. 有丰富的插件,可以进一步增强功能;

2020-09-02

Cloudera_HiveJDBC_2.5.4.1006-hive.zip.7z

cloudera 官方hivejdbc 包.cloudera官网下载的。用来做数据库连接,cloudera 官方hivejdbc 包。

2020-09-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除