Alex_Sheng_Sea-CSDN博客

原创 linux环境下 python找不到自己写的文件模块

解决办法分为两步1.检查包的每一级目录是否有__init__.py文件，如果没有则会出现找不到模块问题2.将项目加入pythonpath中,当前工程名字为data-sloexport PYTHONPATH=$PYTHONPATH:/data/data-slo

2022-03-31 11:11:29 2011

一、安装依赖环境输入命令：yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel二、下载Python31.进入opt文件目录下，cd opt/2.下载python3 （可以到官方先看最新版本多少）输入命令wgethttps://www...

2022-03-03 17:14:24 11653 3

原创 Clickhouse分布式部署

9001 cm agent 端口号 90039010 zookeeper jmx 9011info warning#### 0.添加hosts-----------------------#### 1.创建目录---------------centos-1 创建目录：mkdir -p /data1/clickhouse/{node1,node4}/{data,tmp,logs}centos-2 创建目录：mkdir -p /data1/...

2021-08-10 21:05:22 1198

原创 Ambari重启TimelineServer报错：NoNode for /atsv2-hbase-unsecure/hb aseid

[ReadOnlyZKClient-master01:2181,master02:2181,slave01:2181@0x1f59a598-SendThread(master01:2181)] zookeeper.ClientCnxn: Session establishment complete on server master01/10.70.19.125:2181, sessionid...

2021-08-10 21:04:19 1366

原创 CDH 角色功能简介

Cloudera ManagementCloudera Manager是一个用于管理CDH群集的应用程序。该应用程序使安装过程自动化，将部署时间从几周缩短到几分钟;提供运行主机和服务的集群范围的实时视图;提供单个中央控制台，以在整个群集中实施配置更改;整合了各种报告和诊断工具，以帮助优化性能和利用率。Event Server事件服务,收集hadoop相关事件并据此生成警告信息。Host Monitor主机检测，收集主机运行健康指标信息。Activity Monitor活动检测,收

2021-05-13 15:13:03 566

原创 CDH 各组件角色在线迁移方法 CDH5.16

一、任务清单(一)由于大量的MR任务会造成系统盘负载100%util，使用iotop分析主要是YARN任务造成的，因此需要把YARN的数据目录/yarn/nm迁移到独立磁盘上。主要操作是将YARN NodeManager角色的local-dir和log-dir数据目录迁移。依次迁移：dn4、dn5、dn6、dn7、dn8、dn9(独立磁盘) ，CDH官方也建议多个目录。CDH-->YARN-->实例-->NodeManager角色-->停止chmod 755 /df

2021-05-13 15:07:49 1947

原创 HDFS巡检

1.HDFS总体状态1.HDFS状态，如下的红色提示需要关注2.HDFS容量是否过阈值2.HDFS UI巡检1.Summary巡检对应上图所示标号，逐一进行解释：（1）HDFS总文件数：此数值代表着HDFS存储内有多少文件，该数值的警告阈值为5000W（2）HDFS总存储容量：此数值代表HDFS总存储容量（3）占用存储容量：此数值代表为占用的HDFS存储容量（...

2021-02-01 16:11:59 450

原创大数据基础运维：HDFS参数调优

1.NameNode数据目录dfs.name.dir, dfs.namenode.name.dir指定一个本地文件系统路径，决定NN在何处存放fsimage和editlog文件。可以通过逗号分隔指定多个路径. 目前我们的产线环境只配置了一个目录，并存放在了做了RAID1或RAID5的磁盘上。2.DataNode数据目录dfs.data.dir, dfs.datanode.data.dir指定DN存放块数据的本地盘路径，可以通过逗号分隔指定多个路径。在生产环境可能会在一个...

2021-01-26 13:55:51 1374

原创 Hadoop 集群资源调度——DRF策略

0. 引言如果看过我的上一篇关于 mesos 的文章，应该还记得 mesos 的资源调度策略写的泛化的 max-min fairness 算法，其实这个就是 DRF 算法。DRF，全称 dominant resource fairness，由伯克利大学提出，论文链接在文末列出。论文中介绍 DRF 为 generaliztion of max-min fairness to multiple resource types，所以下面先介绍一下 max-min fairness 算法。1. Max-m

2021-01-22 18:27:01 781

原创 Docker镜像离线传输

场景：从服务器A 传输tensorflow/serving:v1.2镜像至服务器B方法：Step1：从A将镜像打包保存docker save -o tfserving.tar tensorflow/serving:v1.2Step2:在服务器B将镜像导入docker 仓库docker load -i tfserving.tar...

2021-01-14 14:12:47 402

原创 NameNode RPC延迟问题排查思路

前言CDH 有个 NameNode RPC 延迟测试，用于检查NameNode响应请求所花费的平均时间的移动平均值不超过某个值。此运行状况测试失败，可能表明 NameNode 配置错误，NameNode 写入其数据目录之一时遇到问题，或者可能表明容量规划问题。检查 NameNodeRpcQueueTime_avg_time是否异常，如果耗费时间较长，这表明大部分RPC延迟都花在了请求排队上，请尝试增加 NameNode NameNode Handler Count，即dfs.namen...

2021-01-08 21:34:12 2744 1

原创 ES-segment管理

首先明确几个概念：1.segment是在磁盘上的2.ES删除数据导致磁盘容量上升原因：ES才用的标记删除，首先会将要合并的数据拷贝出来，重新写入到新的segment中，然后删除旧的数据，所以会导致消耗额外的磁盘和IO3.ReFresh：从文件系统缓存中把数据写入到磁盘segment，并打开segment，使得新数据可以搜索的过程叫做Refresh4.ES查询将按照策略分配到指定的主从片上，默认是挑选最佳的分片（可以配置只查询主片或者从片等）5.shard是一个lucene实例，由多个se

2021-01-05 14:27:07 1382

原创 ES重要监控指标

主要指标梳理Cluster Health – Nodes and Shards Search Performance – Request Latency and Search Performance – Request Rate Indexing Performance – Refresh Times Indexing Performance – Merge Times Node Health – Memory Usage Node Health – Disk I/O N...

2020-12-14 17:00:51 3085 1

原创 Linux中PageCache与文件IO

1.页缓存的作用1.1 解决进程读取数据时，磁盘IO与内存IO的速度差异1.2 解决不同进程之间的数据共享问题2.页缓存、文件IO、内存之间的联系2.1 读所有的文件内容的读取（无论一开始是命中页缓存还是没有命中页缓存）最终都是直接来源于页缓存。当将数据从磁盘复制到页缓存之后，还要将页缓存的数据通过CPU复制到read调用提供的缓冲区中，这就是普通文件IO需要的两次复制数据复制过程。其中第一次是通过DMA的方式将数据从磁盘复制到页缓存中，本次过程只需要CPU在一开始的时候让.

2020-12-07 15:36:05 277

原创 Elasticsearch 5.x 版本中的冷热节点架构

Elasticsearch 5.x 版本中的冷热节点架构当Elasticsearch用于大量实时数据分析的场景时，我们推荐使用基于时间的索引然后使用三种不同类型的节点（Master, Hot-Node 和 Warm-Node）进行结构分层，这就是所谓的"Hot-Warm"架构。每种节点有自己的任务，下面会进行介绍。Master 节点我们推荐每个集群运行三个专用的Master节点来提供最好的弹性。使用时，你还需要将 discovery.zen.minimum_master_nodes settin

2020-11-02 11:11:33 244 1

转载 hive中快速对表结构数据进行复制

1. CREATE TABLE new_table LIKE old_table;2. 使用hadoop fs -cp 命令，把old_table对应的HDFS目录的文件夹全部拷贝到new_table对应的HDFS目录下；3. 使用MSCK REPAIR TABLE new_table;修复新表的分区元数据；

2020-10-19 15:36:11 335

转载 spark job提交过程

Driver的任务提交过程1、Driver程序的代码运行到action操作，触发了SparkContext的runJob方法。2、SparkContext调用DAGScheduler的runJob函数。3、DAGScheduler把Job划分stage，然后把stage转化为相应的Tasks，把Tasks交给TaskScheduler。4、通过TaskScheduler把Tasks添加到任务队列当中，交给SchedulerBackend进行资源分配和任务调度。5、调度器给Task分配执行Exe

2020-10-19 15:34:29 230

转载 hadoop HA切换机制

NameNode 的主备切换实现NameNode 主备切换主要由 ZKFailoverController、HealthMonitor 和 ActiveStandbyElector 这 3 个组件来协同实现：ZKFailoverController 作为 NameNode 机器上一个独立的进程启动 (在 hdfs 启动脚本之中的进程名为 zkfc)，启动的时候会创建 HealthMonitor 和 ActiveStandbyElector 这两个主要的内部组件，ZKFailoverControlle

2020-10-19 15:31:49 1316

原创删除Rancher的空间cattle-system,状态一直是Terminating

故障现象使用Rancher2.0代理了Kubernetes的管理web页面。因未知原因，Rancher服务无法启用，删除Rancher依赖的namespace（cattle-system），状态一直是Terminating。kubectlpatchnamespacecattle-system-p'{"metadata":{"finalizers":[]}}'--type='merge'-ncattle-systemkubectldeletenamespacecattle-s...

2020-07-08 19:32:26 562

原创 K8S Node节点报错The connection to the server localhost:8080 was refused - did you specify the right host

K8S Node节点报错The connection to the server localhost:8080 was refused - did you specify the right host or port?今天在Kubernetes的从节点上运行命令【kubectl】出现了如下错误[root@k8snode1 kubernetes]# kubectl get podThe connection to the server localhost:8080 was refuse..

2020-07-07 19:48:00 1972

原创 Hive On Tez优化

1.设置tez的hive.tez.container.size参数说明：Sethive.tez.container.sizeto be the same as or a small multiple(1 or 2 times that) of YARN container size yarn.scheduler.minimum-allocation-mbbut NEVER more thanyarn.scheduler.maximum-allocation-mb.备注：如果设置的太大会导...

2020-06-18 16:57:59 1657

原创 Centos修改编码集为C.UTF-8

1.安装编码集localedef -v -c -i en_US -f UTF-8 C.UTF-82.vim /etc/sysconfig/i18n写入如下内容LANG="C.UTF-8"LC_ALL="C.UTF-8"3.vim /etc/profileexport LANG="C.UTF-8"export LC_ALL="C.UTF-8"4.source /etc/profile5.locale...

2020-05-28 14:08:45 3221

原创基于HDP（ambari）的Flink1.9.0编译

我在网上一直没有找到基于HDP-Flink1.9编译的文档，这几天一直在研究，踩了不少坑，现在整理一下，希望可以帮到大家一、准备1.安装Apache Maven 3.2.52.下载flink-shaded-7.03.下载flink-release-1.9.0二、准备编译1.修改flink-shaded项目中的pom.xml，添加如下把上述内容加入到<p...

2020-01-07 19:29:48 1176

原创 ES名词解释

集群：具有相同clusterName的节点。节点：一个ES实例，并不定是一个节点，因为一个节点上可以启动多个ES实例。索引：相当于数据库database的概念，一个集群可以包含多个索引。分片：索引可以切分成多个分片，分布在不同的节点上，节点包含必须包含主分片，同时也可以存在一个或者多个副本。类型：相当于数据库中table的概念，同一个索引下，可以存在多个typemapping：相当于数据...

2019-12-20 16:32:47 1215

原创【kafka】kafka0.11版本follower水位高于leader解决办法

错误日志：ERROR[ReplicaFetcherreplicaId=0,leaderId=2,fetcherId=0]ExitingbecauselogtruncationisnotallowedforpartitionIRT_Dev_HeartBeat-18,currentleader'slatestoffset45479islesstha...

2019-11-12 22:22:39 1714 1

原创 log4j的通用配置

最近在配置azkaban的log4j，顺带整理除了一份通用的log4j的配置，与君共勉### set log levels ###log4j.rootLogger = info,stdout,D,E### 输出到控制台 ###log4j.appender.stdout = org.apache.log4j.ConsoleAppenderlog4j.appender.stdou...

2019-11-12 11:32:13 427

转载 SLF4J和Logback和Log4j和Logging的区别与联系

前言 Java帝国在诞生之初就提供了集合、线程、IO、网络等常用功能，从C和C++领地那里吸引了大量程序员过来加盟，但是却有意无意地忽略了一个重要的功能：输出日志。对于这一点，IO大臣其实非常清楚，日志是个很重要的东西，因为程序运行起来以后，基本上就是一个黑盒子，如果程序的行为和预料的不一致，那就是出现Bug了，如何去定位这个Bug 呢? ...

2019-10-28 20:08:13 165

转载 NAMENODE问题分析

-----journalnode异常日志2017-09-04 02:39:21,667 INFO org.apache.hadoop.hdfs.server.namenode.FileJournalManager: Finalizing edits file /data/hadoop/journalnode/nn/XXXXXXX/current/edits_inprogress_00000000...

2019-10-24 17:23:06 687

原创 flinkOnYarn 启动报错NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnException

[root@hadoop-01 flink-1.9.0]# bin/yarn-session.sh Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefFoundError: org/apache/...

2019-10-17 15:21:27 5866 3

转载 Yarn 内存分配管理机制及相关参数配置(yarn性能调优)

一、相关配置情况关于Yarn内存分配与管理，主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念，相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念，现在可以先把它理解为运行map/reduce task的容器，后面有详细介绍。1.1 RM的内存资源配置, 配置的是资源调度相关RM1：yarn.sche...

2019-08-31 12:16:39 1343

原创 centos 提示No module named sasl 解决

2019-08-27 11:08:02 1586

原创 git 新建本地分支，并对应建立远程分支和推送到远程分支

我们有一个master 分支，当工程要新增新的功能时，又暂时不上线，那么我们可以新建一个新的本地分支，和对应的远程分支，完成之后，上线时再合并就可以了1.查看一下本地分支git branch;查看本地和远程的所有分支git branch -a2.新建一个本地的分支git branch -b newbranch//这个命令是新建一个分支，...

2019-07-31 15:16:54 4871 1

原创 hadoop fsck / 详解

我们知道fsck是用来检测hdfs上文件、block信息的，但是fsck输出的结果我们是否能看明白呢？Status: HEALTHYTotal size: 2847297793799 BTotal dirs: 26332Total files: 883767Total symlinks: 0Total blocks (validate...

2019-07-17 10:54:40 1039

转载 HDFS文件目录结构详解

HDFS metadata以树状结构存储整个HDFS上的文件和目录，以及相应的权限、配额和副本因子（replication factor）等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构，也就是hdfs-site.xml中配置的dfs.namenode.name.dir和dfs.datanode.data.dir。一、...

2019-07-12 18:37:33 1358

转载 DFSClient频繁发生GC，导致写入hdfs超时的问题分析

搜索推荐有一个job，1000多个map，200个reduce，运行到最后只剩一个reduce（10.39.6.130上）的时候，出现以下异常，导致job失败：2014-12-04 15:49:04,297 INFO [main] org.apache.hadoop.mapred.Merger: Down to the last merge-pass, with 12 segments ...

2019-07-10 10:58:28 3006

原创 GC overhead limit exceeded 问题分析与解决

今天出现了一个很奇怪的异常：java.lang.OutOfMemoryError: GC overhead limit exceeded ，超出了GC开销限制。科普了一下，这个是JDK6新添的错误类型。是发生在GC占用大量时间为释放很小空间的时候发生的，是一种保护机制。一般是因为堆太小，导致异常的原因：没有足够的内存。Sun 官方对此的定义：超过98%的时间用来做GC并且回收了不到2%的堆内...

2019-04-24 13:44:08 4780

原创 sasl/sasl.h: No such file or directory

yum install -y gcc-c++yum -y install cyrus-sasl cyrus-sasl-devel cyrus-sasl-lib

2019-04-22 14:53:36 1436

原创 Linux安装MariaDB

环境：CentOs7.4版本：MariaDB5.51.安装方法：#安装mariadb（包含服务器端和客户端）step1：yum -y install mariadb mariadb-server#安装mariadb客户端（可选，比如其他主机需要远程连接mysql，但是并不需要安装服务器端）Step2：yum install mysql#启动maria...

2019-04-22 10:26:41 158

原创 Presto 0.217 部署（单节点与分布式）

一、环境：操作系统：LinuxCentOS Linux release 7.3.1611Presto版本：0.217Hadoop版本：3.1.1HIve 版本：3.1.0二、安装Presto（单机版）1. 解压到指定目录tar -xzvfpresto-server-0.217.tar.gz -C /data/app2.配置Presto2.1 ...

2019-03-08 16:19:41 984

原创 Presto报错

1.报错内容1、在启动presto的时候会出现这个不认识的信息，这些今天遇到的都是每行配置后续多了一个空格，这个还是要一个一个的敲比较靠谱，不要拷贝。java.lang.IllegalArgumentException: No factory for connector hive-hadoop2 at com.google.common.base.Preconditio...

2019-03-08 14:52:51 734

空空如也

空空如也