普通网友-CSDN博客

原创集群中部分nodemanager节点无法启动问题原因

集群启用kerberos+ssl后发现部分NM启动不起来,CM启动日志提示：++ printf '! -name %s ' cloudera-config.sh hue.sh impala.sh sqoop.sh supervisor.conf config.zip proc.json '*.log' yarn.keytab '*jceks'+ find /run/cloudera-scm-...

2018-08-28 02:39:43 3730

原创 yarn 日志查看报错处理：Error getting logs at hostname:8041

解决办法：hdfs dfs -chmod 1777 /tmp/tmp/logshdfs dfs -chown mapred:hadoop /tmp/tmp/logshdfs dfs -chgrp -R hadoop /tmp/tmp/logs然后重启 jobhistory server

2018-05-30 00:17:36 2758

转载 hive/impala存储格式选型

转载自http://blog.csdn.net/mtj66/article/details/539689911、TEXTFILE 默认格式，建表时不指定默认为这个格式，存储方式：行存储导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看磁盘开销大数据解析开销大,压缩的text文件 hive无法进行合并和拆分

2018-03-14 14:24:24 3443

原创关于hbase cannot get replica 0 location问题排查

近期，通过flume往hbase加载数据时，发现少量数据加载报错，提示如下错误，困扰了好几天。我们知道，客户端是通过zk找到meta表，再通过meta定位hbase表各region所在的regionserver。zk中保存meta表的regionserver hostname信息，如果客户端不识别hostname就会提示该错误。显然我们的客户端配置了hostname映射关系，故排除该问题，

2018-01-06 18:21:59 17757 1

原创 eclipse/maven工具打包及使用

1、hbase导出到集群执行 a、直接依赖集群上的包只导出jar文件: G:\java\sourcecode\myjava\ExampleClient.jar 修改jar文件MANIFEST.MF中的内容,将main指向所跑的主类 com.hbase.ExampleClient 上传至集群运行

2017-12-27 21:19:18 1177

原创 jvm内存分析命令

top –H -p 47005 jstat -gcutil 47005 统计gc信息jmap -dump:live,file=a.map 47005 jmap -histo 47005 比较简单的各个有多少个对象占了多少内存的信息jmap –heap 47005 打印heap的概要信息，GC使用的算法，heap的配置及wise heap的使用情况.

2017-12-18 17:03:22 559

原创 eclipse常用快捷键

1、定位import模块来自哪个jar包如查看 import org.apache.hadoop.conf.Configuration;归属jar包将鼠标移至Configuration上按F2，点击“open Attached ...Browser”即可显示来源jar包2、批量重命名快捷键alt+shift+r

2017-12-09 19:49:31 179

转载 greenplum数据库参数设置

转载于 http://blog.csdn.net/echollee/article/details/6915479 起因：greenplum查询一个表的分区太多导致出现这么个错误：执行SQL异常ERROR: insufficient memory reserved for statement 主要就这个异常信息于是在网上查了查，发现网上这么说：statement_mem：

2017-12-08 16:57:46 2553

转载 greenplum 权限说明

Table 2. Object PrivilegesObject TypePrivilegesTables, Views, SequencesSELECTINSERTUPDATEDELETERULEALLExternal TablesSELECTRULEALL

2017-12-06 18:25:08 1761

转载 greenplum pg_hba.conf 文件简析

转自：https://www.cnblogs.com/hiloves/archive/2011/08/20/2147043.htmlMETHOD指定如何处理客户端的认证。常用的有ident，md5，password，trust，reject。ident是Linux下PostgreSQL默认的local认证方式，凡是能正确登录服务器的操作系统用户（注：不是数据库用户）就能使用本用户映射的

2017-12-06 17:04:42 4391

原创 hadoop2.2.0升级到2.7.2

1、非高可用集群安装及配置配置了1个master 2个slave,启动正常,并添加相关数据2、升级为手动高可用集群（与正式环境一致） 2.1、配置手动故障转移hdfs HA (此处不需要zk,自动切换才依赖zk) ---backup cp -r /home/test/hadoop-2.2.0/etc/hadoop

2017-11-20 14:10:41 734

原创 SecondaryNameNode异常排查

二级namenode提示错误：2017-11-20 09:44:58,877 ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Exception in doCheckpointjava.io.IOException: Inconsistent checkpoint fields.LV = -47 names

2017-11-20 10:31:05 1753

原创 hadoop2.2.0升级成hdfs ha后查询报java.net.UnknownHostException

hadoop2.2.0升级成hdfs ha后查询报错： hadoop fs -ls /17/11/16 16:17:52 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable-l

2017-11-16 16:44:55 2646

原创 sparksql优化1（小表大表关联优化 & union替换or）

----原语句（运行18min）INSERT into TABLE schema.dstable SELECT bb.ip FROM (SELECT ip, sum(click) click_num, round(sum(click)/sum(imp),4) user_click_rate FROM schema.srctable1WHERE date = '2017102

2017-11-07 18:03:15 6059

转载 linux top命令查看内存及多核CPU的使用讲述

转自：http://www.cnblogs.com/dragonsuc/p/5512797.html查看多核CPU命令mpstat -P ALL 和 sar -P ALL 说明：sar -P ALL > aaa.txt 重定向输出内容到文件 aaa.txt top命令经常用来监控linux的系统状况，比如cpu、内存的使用，程序员基本都知道这个命令，但比较奇怪的

2017-10-30 22:32:04 376

原创 hbase hregion server 异常退出排查

---HBASE日志2017-10-25 23:01:15,788 INFO [JvmPauseMonitor] util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 2907msGC pool 'ParNew' had collection(s): coun

2017-10-28 15:32:08 4421 1

原创调整elasticsearch数据存放目录的一种快速方法

为避免实例停止期间，主副本数据复制问题，采取以下方法，可快速实现数据存放目录变更。经验证，速度较常规方法快至少一倍。1、停一个节点前，禁用分片 curl -XPUT '10.10.10.111:9200/_cluster/settings?pretty' -H 'Content-Type: application/json' -d' { "transien

2017-10-27 19:21:28 8418

转载 Elasticsearch Recovery详解

转自：http://blog.csdn.net/u012450329/article/details/52881045Elasticsearch Recovery详解基础知识点在Eleasticsearch中recovery指的就是一个索引的分片分配到另外一个节点的过程；一般在快照恢复、索引副本数变更、节点故障、节点重启时发生。由于mas

2017-10-27 18:08:29 673

原创 hadoop集群优化

hadoop集群优化：一、配置参数优化1、小文件优化：调整split\reduce等参数split参数需根据应用自定义调整,不能统一配置。--hive-site.xml（调整reduce输出参数） hive.merge.mapredfiles true hive.merge.smallfiles.avgsize 100000000

2017-10-20 21:15:04 918

转载 spark动态分配executor

转自：http://blog.csdn.net/u014393917/article/details/50630829动态分配executor的实例初始化部分如果spark.executor.instances配置项设置为0或者没有设置,这个默认情况下是一个未设置的值,yarn的运行模式时,这个配置通过--num-executors来得到.同时spark.dynamic

2017-10-18 22:35:41 6064

原创 Maven私服（Nexus）部署

一．概述Nexus是一个maven私服，主要解决的问题有：1. 由于国内的网络环境比较恶劣，从maven中央仓库下载依赖库比较慢，因此架设nexus私服从内网获取，大大提高下载速度。2. 多个不同的项目存在多个相同的依赖，若每个项目都独自通过中央仓库或其他maven仓库中获取依赖，占用网络资源且效率低下，使用nexus私服仅在依赖库第一次获取时需要从

2017-10-13 17:54:53 860

转载 spark中的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。

转自：https://www.zhihu.com/question/33270495/answer/93424104梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark

2017-10-12 18:42:09 1637

原创未解之谜

1、spark thriftserver运行一段时间后，执行SQL报以下错误：Error: java.io.IOException: Failed to create local dir in /tmp/blockmgr-0937276e-0a89-4df0-9282-724a0525363a/1e. (state=,code=0)java.io.IOException: Failed t

2017-10-12 16:10:54 1542 1

转载 linux下测试磁盘的读写IO速度

转自：http://blog.chinaunix.net/uid-24250828-id-3239100.html有时候我们在做维护的时候，总会遇到类似于IO特别高，但不能判定是IO瓶颈还是软件参数设置不当导致热盘的问题.这时候通常希望能知道磁盘的读写速度，来进行下一步的决策.下面是两种测试方法：(1)使用hdparm命令这是一个是用来获取ATA/IDE硬盘的参数的命令

2017-10-11 11:15:36 3309

原创 hadoop lzo配置

一、准备工作(only一个节点即可,not all)1、maven准备2、安装lzowget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz tar -zxvf lzo-2.06.tar.gz -C ../cd lzo-2.06mkdir -p /usr/local/lzo206./con

2017-10-10 10:27:49 521

转载 hive服务

hiveserver/hiveserver2比较之前一直不明白，有了hiveserver，为什么还要有hiveserver2？看了下段，终于明白：hiveserver和hiveserver2虽然都基于thrift，允许客户端使用多语言远程操作hive，但前者不能处理多于一个客户端的并发请求。因此在Hive-0.11.0版本中重写了HiveServer代码得到了HiveServer2，进

2017-10-09 10:31:03 240

原创 spark 开启历史日志监控

vi spark-defaults.confspark.eventLog.enabled truespark.eventLog.dir hdfs://webcluster/directoryspark.eventLog.compress truevi spark-env.shexport SPARK_HISTORY_OPTS="-Dspark.history.ui.

2017-09-30 12:07:40 1161

原创 zookeeper事务日志可视化

将libs中的slf4j-api-1.7.5.jar文件和zookeeper根目录下的zookeeper.jar文件复制到临时文件夹tmplibs中，然后执行如下命令：cd tmplibsjava -classpath .:slf4j-api-1.7.5.jar:zookeeper.jar org.apache.zookeeper.server.LogFormatter /data

2017-09-29 18:17:21 463

原创 rsync部署及使用

一、服务端配置vi /etc/rsyncd.conf uid = root gid = root use chroot = no max connections = 40 lock file=/var/run/rsyncd.lock log file = /var/log/rsyncd.log #exclud

2017-09-28 09:59:47 345

原创分布式集群批量执行命令sh脚本

#!/bin/bashecho -e command template as follow: "\n sh ~/sh/dist_batch_exec.sh [--background] \"date\""<<EOF EOFif [[ ! -f ~/sh/node.cfg ]]; then echo echo Error: ~/shell/node.cfg must be set ec

2017-09-27 22:05:58 2536

原创 IPProxyPool部署

依赖：python 2.7mkdir /home/hadoop/crawler一、安装python 2.7.2wget https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tgztar -zxvf Python-2.7.12.tgz cd Python-2.7.12 ./configure --prefix=/usr

2017-09-27 15:21:26 2856

原创 hbase regionserver异常退出

2017-09-23 09:20:54,223 WARN [JvmPauseMonitor] util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 28836msNo GCs detected2017-09-23 09:20:54,250 INFO [regio

2017-09-23 17:04:10 3029

转载大页面和透明大页面

内存是由块管理，即众所周知的页面。一个页面有 4096 字节。1MB 内存等于 256 个页面。1GB 内存等于 256000 个页面等等。CPU 有内嵌的内存管理单元，这些单元中包含这些页面列表，每个页面都使用页表条目参考。让系统管理大量内存有两种方法：增加硬件内存管理单元中页表数增大页面大小第一个方法很昂贵，因为现代处理器中的硬件内存管理单元只支持数百或

2017-09-22 18:55:28 4457 1

转载单表关联查询MR

转自：http://www.linuxidc.com/Linux/2015-03/114669p6.htm1、输入数据分析输入文件数据示例：child parentTom Jack Jack AliceJack Jesse第1列表示child，第2列表示parent，我们需要根据child和parent的关系得出child和grantparent的关系。比如说

2017-09-18 21:43:37 1866 1

转载 reduce/map/semi join

转自：http://database.51cto.com/art/201410/454277.htm一、概述对于RDBMS中的join操作大伙一定非常熟悉，写sql的时候要十分注意细节，稍有差池就会耗时巨久造成很大的性能瓶颈，而在Hadoop中使用MapReduce框架进行join的操作时同样耗时，但是由于hadoop的分布式设计理念的特殊性，因此对于这种join操作同样也具备了一定的

2017-09-18 21:41:06 422

原创 hadoop卸载及扩容

------------------------------------------------------------------------------卸载---------------------------------------------------------------------------------------------------------待卸载节点bis-

2017-09-18 18:01:03 6558

转载 QJM实现机制

转自：http://www.cnblogs.com/charlist/p/7122237.html前言1.1背景自从hadoop2版本开始，社区引入了NameNode高可用方案。NameNode主从节点间需要同步操作日志来达到主从节点元数据一致。最初业界均通过NFS来实现日志同步，大家之所以选择NFS，一方面因为可以很方便地实现数据共享，另外一方面因为NFS已经

2017-09-18 16:20:48 2303

转载虚拟机上面的LINUX 无法和宿主WIN上面的时间同步问题

转自：http://blog.csdn.net/u011569202/article/details/46137543服务器在虚拟机上运行多时，总是发现时间会不正常，调整好了，运行几日，会出现日期时间不正确的情况，正常时间1分钟，BSD上才走大约半分钟，偏移得厉害。用ntpdate或ntpd都不能校正，无法正常同步时间。VMWare下普遍存在虚拟机CPU时钟频率慢于标准频率的BUG，导致

2017-09-15 11:22:45 491

原创 namenode异常退出分析

namenode异常退出日志：2017-09-14 02:38:07,147 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Stopping services started for active state2017-09-14 02:38:07,150 INFO org.apache.hadoop.hdfs.server

2017-09-14 15:47:09 2719

转载 zk negotiated timeout和响应timeout讨论

转自：http://crazyjvm.iteye.com/blog/1701032http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息：Java代码 Client session timed out, have not h

2017-09-14 15:41:57 8314

空空如也

空空如也