自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据仓库及大数据领域

  • 博客(91)
  • 收藏
  • 关注

原创 集群中部分nodemanager节点无法启动问题原因

集群启用kerberos+ssl后发现部分NM启动不起来,CM启动日志提示:++ printf '! -name %s ' cloudera-config.sh hue.sh impala.sh sqoop.sh supervisor.conf config.zip proc.json '*.log' yarn.keytab '*jceks'+ find /run/cloudera-scm-...

2018-08-28 02:39:43 3730

原创 yarn 日志查看报错处理:Error getting logs at hostname:8041

解决办法:hdfs dfs -chmod 1777 /tmp/tmp/logshdfs dfs -chown mapred:hadoop /tmp/tmp/logshdfs dfs -chgrp -R hadoop /tmp/tmp/logs然后重启 jobhistory server

2018-05-30 00:17:36 2758

转载 hive/impala存储格式选型

转载自http://blog.csdn.net/mtj66/article/details/539689911、TEXTFILE    默认格式,建表时不指定默认为这个格式,存储方式:行存储  导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看  磁盘开销大 数据解析开销大,压缩的text文件 hive无法进行合并和拆分

2018-03-14 14:24:24 3443

原创 关于hbase cannot get replica 0 location问题排查

近期,通过flume往hbase加载数据时,发现少量数据加载报错,提示如下错误,困扰了好几天。我们知道,客户端是通过zk找到meta表,再通过meta定位hbase表各region所在的regionserver。zk中保存meta表的regionserver hostname信息,如果客户端不识别hostname就会提示该错误。显然我们的客户端配置了hostname映射关系,故排除该问题,

2018-01-06 18:21:59 17757 1

原创 eclipse/maven工具打包及使用

1、hbase导出到集群执行    a、直接依赖集群上的包        只导出jar文件: G:\java\sourcecode\myjava\ExampleClient.jar        修改jar文件MANIFEST.MF中的内容,将main指向所跑的主类 com.hbase.ExampleClient        上传至集群运行                

2017-12-27 21:19:18 1177

原创 jvm内存分析命令

top –H -p 47005 jstat -gcutil 47005   统计gc信息jmap -dump:live,file=a.map 47005  jmap -histo 47005  比较简单的各个有多少个对象占了多少内存的信息jmap –heap 47005  打印heap的概要信息,GC使用的算法,heap的配置及wise heap的使用情况.

2017-12-18 17:03:22 559

原创 eclipse常用快捷键

1、定位import模块来自哪个jar包如查看 import org.apache.hadoop.conf.Configuration;归属jar包将鼠标移至Configuration上按F2,点击“open Attached ...Browser”即可显示来源jar包2、批量重命名快捷键alt+shift+r

2017-12-09 19:49:31 179

转载 greenplum数据库参数设置

转载于 http://blog.csdn.net/echollee/article/details/6915479 起因:greenplum查询一个表的分区太多导致出现这么个错误:执行SQL异常ERROR: insufficient memory reserved for statement  主要就这个异常信息于是在网上查了查,发现网上这么说:statement_mem:

2017-12-08 16:57:46 2553

转载 greenplum 权限说明

Table 2. Object PrivilegesObject TypePrivilegesTables, Views, SequencesSELECTINSERTUPDATEDELETERULEALLExternal TablesSELECTRULEALL

2017-12-06 18:25:08 1761

转载 greenplum pg_hba.conf 文件简析

转自:https://www.cnblogs.com/hiloves/archive/2011/08/20/2147043.htmlMETHOD指定如何处理客户端的认证。常用的有ident,md5,password,trust,reject。ident是Linux下PostgreSQL默认的local认证方式,凡是能正确登录服务器的操作系统用户(注:不是数据库用户)就能使用本用户映射的

2017-12-06 17:04:42 4391

原创 hadoop2.2.0升级到2.7.2

1、非高可用集群安装及配置    配置了1个master 2个slave,启动正常,并添加相关数据2、升级为手动高可用集群(与正式环境一致)        2.1、配置手动故障转移hdfs HA (此处不需要zk,自动切换才依赖zk)        ---backup             cp -r /home/test/hadoop-2.2.0/etc/hadoop

2017-11-20 14:10:41 734

原创 SecondaryNameNode异常排查

二级namenode提示错误:2017-11-20 09:44:58,877 ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Exception in doCheckpointjava.io.IOException: Inconsistent checkpoint fields.LV = -47 names

2017-11-20 10:31:05 1753

原创 hadoop2.2.0升级成hdfs ha后查询报java.net.UnknownHostException

hadoop2.2.0升级成hdfs ha后查询报错: hadoop fs -ls /17/11/16 16:17:52 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable-l

2017-11-16 16:44:55 2646

原创 sparksql优化1(小表大表关联优化 & union替换or)

----原语句(运行18min)INSERT into TABLE schema.dstable SELECT bb.ip FROM (SELECT ip, sum(click) click_num, round(sum(click)/sum(imp),4) user_click_rate FROM schema.srctable1WHERE date = '2017102

2017-11-07 18:03:15 6059

转载 linux top命令查看内存及多核CPU的使用讲述

转自:http://www.cnblogs.com/dragonsuc/p/5512797.html查看多核CPU命令mpstat -P ALL  和  sar -P ALL 说明:sar -P ALL > aaa.txt   重定向输出内容到文件 aaa.txt top命令经常用来监控linux的系统状况,比如cpu、内存的使用,程序员基本都知道这个命令,但比较奇怪的

2017-10-30 22:32:04 376

原创 hbase hregion server 异常退出排查

---HBASE日志2017-10-25 23:01:15,788 INFO  [JvmPauseMonitor] util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 2907msGC pool 'ParNew' had collection(s): coun

2017-10-28 15:32:08 4421 1

原创 调整elasticsearch数据存放目录的一种快速方法

为避免实例停止期间,主副本数据复制问题,采取以下方法,可快速实现数据存放目录变更。经验证,速度较常规方法快至少一倍。1、停一个节点前,禁用分片    curl -XPUT '10.10.10.111:9200/_cluster/settings?pretty' -H 'Content-Type: application/json' -d'    {      "transien

2017-10-27 19:21:28 8418

转载 Elasticsearch Recovery详解

转自:http://blog.csdn.net/u012450329/article/details/52881045Elasticsearch Recovery详解基础知识点在Eleasticsearch中recovery指的就是一个索引的分片分配到另外一个节点的过程;一般在快照恢复、索引副本数变更、节点故障、节点重启时发生。由于mas

2017-10-27 18:08:29 673

原创 hadoop集群优化

hadoop集群优化:一、配置参数优化1、小文件优化:调整split\reduce等参数split参数需根据应用自定义调整,不能统一配置。--hive-site.xml(调整reduce输出参数)    hive.merge.mapredfiles    true    hive.merge.smallfiles.avgsize    100000000

2017-10-20 21:15:04 918

转载 spark动态分配executor

转自:http://blog.csdn.net/u014393917/article/details/50630829动态分配executor的实例初始化部分如果spark.executor.instances配置项设置为0或者没有设置,这个默认情况下是一个未设置的值,yarn的运行模式时,这个配置通过--num-executors来得到.同时spark.dynamic

2017-10-18 22:35:41 6064

原创 Maven私服(Nexus)部署

一.        概述Nexus是一个maven私服,主要解决的问题有:1.      由于国内的网络环境比较恶劣,从maven中央仓库下载依赖库比较慢,因此架设nexus私服从内网获取,大大提高下载速度。2.      多个不同的项目存在多个相同的依赖,若每个项目都独自通过中央仓库或其他maven仓库中获取依赖,占用网络资源且效率低下,使用nexus私服仅在依赖库第一次获取时需要从

2017-10-13 17:54:53 860

转载 spark中的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。

转自:https://www.zhihu.com/question/33270495/answer/93424104梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark

2017-10-12 18:42:09 1637

原创 未解之谜

1、spark thriftserver运行一段时间后,执行SQL报以下错误:Error: java.io.IOException: Failed to create local dir in /tmp/blockmgr-0937276e-0a89-4df0-9282-724a0525363a/1e. (state=,code=0)java.io.IOException: Failed t

2017-10-12 16:10:54 1542 1

转载 linux下测试磁盘的读写IO速度

转自:http://blog.chinaunix.net/uid-24250828-id-3239100.html有时候我们在做维护的时候,总会遇到类似于IO特别高,但不能判定是IO瓶颈还是软件参数设置不当导致热盘的问题.这时候通常希望能知道磁盘的读写速度,来进行下一步的决策.下面是两种测试方法:(1)使用hdparm命令这是一个是用来获取ATA/IDE硬盘的参数的命令

2017-10-11 11:15:36 3309

原创 hadoop lzo配置

一、准备工作(only一个节点即可,not all)1、maven准备2、安装lzowget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz tar -zxvf lzo-2.06.tar.gz -C ../cd lzo-2.06mkdir -p /usr/local/lzo206./con

2017-10-10 10:27:49 521

转载 hive服务

hiveserver/hiveserver2比较之前一直不明白,有了hiveserver,为什么还要有hiveserver2?看了下段,终于明白:hiveserver和hiveserver2虽然都基于thrift,允许客户端使用多语言远程操作hive,但前者不能处理多于一个客户端的并发请求。因此在Hive-0.11.0版本中重写了HiveServer代码得到了HiveServer2,进

2017-10-09 10:31:03 240

原创 spark 开启历史日志监控

vi spark-defaults.confspark.eventLog.enabled  truespark.eventLog.dir      hdfs://webcluster/directoryspark.eventLog.compress truevi spark-env.shexport SPARK_HISTORY_OPTS="-Dspark.history.ui.

2017-09-30 12:07:40 1161

原创 zookeeper事务日志可视化

将libs中的slf4j-api-1.7.5.jar文件和zookeeper根目录下的zookeeper.jar文件复制到临时文件夹tmplibs中,然后执行如下命令:cd tmplibsjava -classpath .:slf4j-api-1.7.5.jar:zookeeper.jar org.apache.zookeeper.server.LogFormatter /data

2017-09-29 18:17:21 463

原创 rsync部署及使用

一、服务端配置vi /etc/rsyncd.conf uid = root                        gid = root use chroot = no max connections = 40  lock file=/var/run/rsyncd.lock log file = /var/log/rsyncd.log      #exclud

2017-09-28 09:59:47 345

原创 分布式集群批量执行命令sh脚本

#!/bin/bashecho -e command template as follow: "\n sh ~/sh/dist_batch_exec.sh [--background] \"date\""<<EOF EOFif [[ ! -f ~/sh/node.cfg ]]; then echo echo Error: ~/shell/node.cfg must be set ec

2017-09-27 22:05:58 2536

原创 IPProxyPool部署

依赖:python 2.7mkdir /home/hadoop/crawler一、安装python 2.7.2wget https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tgztar -zxvf Python-2.7.12.tgz cd Python-2.7.12 ./configure --prefix=/usr

2017-09-27 15:21:26 2856

原创 hbase regionserver异常退出

2017-09-23 09:20:54,223 WARN [JvmPauseMonitor] util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 28836msNo GCs detected2017-09-23 09:20:54,250 INFO [regio

2017-09-23 17:04:10 3029

转载 大页面和透明大页面

内存是由块管理,即众所周知的页面。一个页面有 4096 字节。1MB 内存等于 256 个页面。1GB 内存等于 256000 个页面等等。CPU 有内嵌的内存管理单元,这些单元中包含这些页面列表,每个页面都使用页表条目参考。让系统管理大量内存有两种方法:增加硬件内存管理单元中页表数增大页面大小第一个方法很昂贵,因为现代处理器中的硬件内存管理单元只支持数百或

2017-09-22 18:55:28 4457 1

转载 单表关联查询MR

转自:http://www.linuxidc.com/Linux/2015-03/114669p6.htm1、 输入数据分析输入文件数据示例:child parentTom Jack Jack AliceJack Jesse第1列表示child,第2列表示parent,我们需要根据child和parent的关系得出child和grantparent的关系。比如说

2017-09-18 21:43:37 1866 1

转载 reduce/map/semi join

转自:http://database.51cto.com/art/201410/454277.htm一、概述对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的

2017-09-18 21:41:06 422

原创 hadoop卸载及扩容

------------------------------------------------------------------------------卸载---------------------------------------------------------------------------------------------------------待卸载节点bis-

2017-09-18 18:01:03 6558

转载 QJM实现机制

转自:http://www.cnblogs.com/charlist/p/7122237.html前言1.1背景    自从hadoop2版本开始,社区引入了NameNode高可用方案。NameNode主从节点间需要同步操作日志来达到主从节点元数据一致。最初业界均通过NFS来实现日志同步,大家之所以选择NFS,一方面因为可以很方便地实现数据共享,另外一方面因为NFS已经

2017-09-18 16:20:48 2303

转载 虚拟机上面的LINUX 无法和宿主WIN上面的时间同步问题

转自:http://blog.csdn.net/u011569202/article/details/46137543服务器在虚拟机上运行多时,总是发现时间会不正常,调整好了,运行几日,会出现日期时间不正确的情况,正常时间1分钟,BSD上才走大约半分钟,偏移得厉 害。用ntpdate或ntpd都不能校正,无法正常同步时间。VMWare下普遍存在虚拟机CPU时钟频率慢于标准频率的BUG,导致

2017-09-15 11:22:45 491

原创 namenode异常退出分析

namenode异常退出日志:2017-09-14 02:38:07,147 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Stopping services started for active state2017-09-14 02:38:07,150 INFO org.apache.hadoop.hdfs.server

2017-09-14 15:47:09 2719

转载 zk negotiated timeout和响应timeout讨论

转自:http://crazyjvm.iteye.com/blog/1701032http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题,但是又出现了一个问题,我把min和max都设置成了180000,但是仍然出现了以下的异常信息:Java代码  Client session timed out, have not h

2017-09-14 15:41:57 8314

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除