自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 如何在程序里动态加载配置文件

flume的sink进程或者kafka的consumer进程,特定的时候需要读取配置文件,如提取指定的字段或过滤指定字段等。这种情况,若没有动态加载,则需要需改代码或配置文件,重启进程方能生效,十分不利于维护。最好的办法是让进程去监控配置文件的改动,然后动态的去读取其中的内容并应用到进程中去,从而达到动态修改。方案就是启动一个单独线程去监控配置文件的最后修改时间,若发现有改动则重新加载。代

2016-03-28 15:18:00 1462

原创 kafka consumer group的删除和offset恢复

运维kafka时,会有时需要删除无效或已下线的consumer group,若设置的offset保存位置是zookeepr,则数据都在zookeeper中,可自行删除,方式就是删除zookeeper相应节点。kafka的offset若想按照生产时间进行恢复,事实严重不准,具体可参见:关于kafka中的timestamp与offset的对应关系 恢复步骤:1. 获取该consumer g

2016-03-23 15:58:07 17831

原创 如何通过程序kill掉后台运行shell脚本中的mapreduce和hive任务

现有的任务基本上都是在shell脚本中写入:hive -e "$sql" 或者 hadoop jar ... 通过这种形式提交到hadoop集群上,若想在脚本运行中kill掉任务,需要进行2步操作1. kill掉当前shell脚本所在进程(及其启动的子进程)2. 在hadoop集群上kill掉相应的mapreduce任务。其中第一步可以通过用脚本实现,前提是获取该shell脚本的p

2016-03-23 10:08:33 6256

原创 hive 增加自定义udf

hive 在用命令行工具启动时会运行./ext/cli.shTHISSERVICE=cliexport SERVICE_LIST="${SERVICE_LIST}${THISSERVICE} "cli () { CLASS=org.apache.hadoop.hive.cli.CliDriver execHiveCmd $CLASS "$@"}cli_help () {

2016-03-22 14:27:00 834

原创 hive 0.8.1版本获取建表语句方法

#!/bin/sh###################. /etc/profile. ~/.bash_profile################## SCRIPT_NAME=$(readlink -f "$0")dir=`dirname ${SCRIPT_NAME}`cd $dirif [[ -z $1 ]] then echo "Useage : $0 tab

2016-03-22 13:43:17 439

原创 hive 新增的聚合功能

hive 新增加了以下四种聚合功能,扩展了之前只能group by 一组的模式。GROUPING SETS clauseGrouping__ID functionCubes and Rollupshive.new.job.grouping.set.cardinality1. GROUPING SETS 这个功能比较容易理解,就如下表所示。Aggr

2016-03-21 15:44:48 2798

原创 获取指定时间的offsets类:GetOffsetShell 源码导读

总览:全程有两种rpc调用,server端就是kafka集群(通过给定的参数broker list进行连接),第一种只调用一次,获取topic的元数据信息:topicsMetadata,其中包含了该topic的partition数量及每个partition所在的brokerid(当然也能够找到该partition的leader)。第二种调用多次(次数=partition数,也就是每个partiti

2016-03-21 15:40:49 2907 1

原创 Kafka ConsumerOffsetChecker 命令失效问题解决

问题:kafka获取某一group当前消费情况的命令如下:bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --topic ctr_kafka --zookeeper localhost:2181 --group  mobil-canel-online正常情况,会返回group:mobil-canel-onli

2016-03-21 15:35:34 17919

原创 Kafka kafka-reassign-partitions.sh 命令使用

编辑文件:tmp,内容如下:{"topics":[{"topic": "__consumer_offsets"},{"topic": "kafka_topic"}], "version":1}生成reassign结果:sh kafka-reassign-partitions.sh --generate --zookeeper localhost:21

2016-03-21 15:34:05 7083

原创 hadoop Balance 优化

优化拷贝带宽(带宽的设置是影响datanode,设置单个datanode的balance带宽上限):[-setBalancerBandwidth ][@rm.tv.hadoop.sohuno.com ~]$ hdfs dfsadmin -setBalancerBandwidth 50000000Balancer bandwidth is set to 50000000 for nn.tv.

2016-03-21 15:20:05 3694

原创 hadoop Balancer 流程

main()->Cli.run()->Balancer.run()boolean done = false;for(int iteration = 0; !done; iteration++) { done = true; // 打散多个namespace Collections.shuffle(connectors); for(NameNodeConnect

2016-03-21 15:10:56 969

原创 通过webhdfs put文件到hdfs

通过rest API的webhdfs走的http,不需要安装hadoop客户端了。put代码如下:#!/bin/sh###################. /etc/profile. ~/.bash_profile##################echo =====================================`date`=======

2016-03-21 14:59:20 3817

原创 hadoop tasktracker 异常:PriviledgedActionException as:adlog cause:ENOENT: No such file or directory

今日发现一台tasktracker进入了Graylisted  Nodes,查看其log发现如下报错:2015-04-10 11:53:49,539 INFO org.apache.hadoop.mapred.JobLocalizer: Initializing user rc on this TT.2015-04-10 11:53:49,549 WARN org.apache.h

2015-04-10 14:43:01 1800

原创 hadoop集群负载高导致的flume问题

flume->hdfs source是tail、channel是memory、sink是hdfsflume端报错:2015-01-29 01:55:58,424 (SinkRunner-PollingRunner-DefaultSinkProcessor) [WARN - org.apache.flume.sink.hdfs.BucketWriter.append(BucketWr

2015-01-29 14:11:07 2794

原创 hadoop job 抛出 Exception in thread "main" java.lang.NoClassDefFoundError: ___/tmp/hsperfdata_ 异常

hadoop的job抛出以下异常:Exception in thread "main" java.lang.NoClassDefFoundError: ___/tmp/hsperfdata_pctvlog/11835Caused by: java.lang.ClassNotFoundException: ___.tmp.hsperfdata_pctvlog.11835

2014-03-17 16:03:25 3423

原创 hadoop-2.2.0配合hive-0.12.0使用orc存储引发的bug

环境:hadoop版本:hadoop-2.2.0 (官网下载并编译为64位版本)hive版本:hive-0.12.0(官网下载后解压)集群状态良好,尝试普通hive以及mapreduce均成功。测试新版hive的orc存储格式,步骤如下:create external table text_test (id string,text string)  row format

2014-03-13 18:54:08 5904 1

原创 hadoop2.0 执行框架

搭建hadoop2.0集群,按照官网上单机模式搭建,配置了三台节点,启动了resourcemanager以及三个nodemanager,结果运行job发现都是本地运行。查找原因是未加入如下配置mapred-site.xml    mapreduce.framework.name    yarn 集群框架默认是jobtracker也就是1.0框架。修改后集群运行。

2014-03-07 11:42:44 798

原创 hadoop1.0向hadoop2.0 distcp数据

报错:java.io.IOException: Check-sum mismatch between hftp://zw-tvhadoop-master:50070/user/hive/warehouse/pvlog_depth_rcfile/dt=20140306/_logs/history/job_201401231451_357062_1394133462287_tvhadoop_map

2014-03-07 11:34:46 1258

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除