小胖头鱼-CSDN博客

原创如何在程序里动态加载配置文件

flume的sink进程或者kafka的consumer进程，特定的时候需要读取配置文件，如提取指定的字段或过滤指定字段等。这种情况，若没有动态加载，则需要需改代码或配置文件，重启进程方能生效，十分不利于维护。最好的办法是让进程去监控配置文件的改动，然后动态的去读取其中的内容并应用到进程中去，从而达到动态修改。方案就是启动一个单独线程去监控配置文件的最后修改时间，若发现有改动则重新加载。代

2016-03-28 15:18:00 1462

原创 kafka consumer group的删除和offset恢复

运维kafka时，会有时需要删除无效或已下线的consumer group，若设置的offset保存位置是zookeepr，则数据都在zookeeper中，可自行删除，方式就是删除zookeeper相应节点。kafka的offset若想按照生产时间进行恢复，事实严重不准，具体可参见：关于kafka中的timestamp与offset的对应关系恢复步骤：1. 获取该consumer g

2016-03-23 15:58:07 17831

原创如何通过程序kill掉后台运行shell脚本中的mapreduce和hive任务

现有的任务基本上都是在shell脚本中写入：hive -e "$sql" 或者 hadoop jar ... 通过这种形式提交到hadoop集群上，若想在脚本运行中kill掉任务，需要进行2步操作1. kill掉当前shell脚本所在进程（及其启动的子进程）2. 在hadoop集群上kill掉相应的mapreduce任务。其中第一步可以通过用脚本实现，前提是获取该shell脚本的p

2016-03-23 10:08:33 6256

原创 hive 增加自定义udf

hive 在用命令行工具启动时会运行./ext/cli.shTHISSERVICE=cliexport SERVICE_LIST="${SERVICE_LIST}${THISSERVICE} "cli () { CLASS=org.apache.hadoop.hive.cli.CliDriver execHiveCmd $CLASS "$@"}cli_help () {

2016-03-22 14:27:00 834

原创 hive 0.8.1版本获取建表语句方法

#!/bin/sh###################. /etc/profile. ~/.bash_profile################## SCRIPT_NAME=$(readlink -f "$0")dir=`dirname ${SCRIPT_NAME}`cd $dirif [[ -z $1 ]] then echo "Useage : $0 tab

2016-03-22 13:43:17 439

原创 hive 新增的聚合功能

hive 新增加了以下四种聚合功能，扩展了之前只能group by 一组的模式。GROUPING SETS clauseGrouping__ID functionCubes and Rollupshive.new.job.grouping.set.cardinality1. GROUPING SETS 这个功能比较容易理解，就如下表所示。Aggr

2016-03-21 15:44:48 2798

原创获取指定时间的offsets类：GetOffsetShell 源码导读

总览：全程有两种rpc调用，server端就是kafka集群（通过给定的参数broker list进行连接），第一种只调用一次，获取topic的元数据信息：topicsMetadata，其中包含了该topic的partition数量及每个partition所在的brokerid（当然也能够找到该partition的leader）。第二种调用多次（次数=partition数，也就是每个partiti

2016-03-21 15:40:49 2907 1

原创 Kafka ConsumerOffsetChecker 命令失效问题解决

问题：kafka获取某一group当前消费情况的命令如下：bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --topic ctr_kafka --zookeeper localhost:2181 --group mobil-canel-online正常情况，会返回group:mobil-canel-onli

2016-03-21 15:35:34 17919

原创 Kafka kafka-reassign-partitions.sh 命令使用

编辑文件：tmp，内容如下：{"topics":[{"topic": "__consumer_offsets"},{"topic": "kafka_topic"}], "version":1}生成reassign结果：sh kafka-reassign-partitions.sh --generate --zookeeper localhost:21

2016-03-21 15:34:05 7083

原创 hadoop Balance 优化

优化拷贝带宽（带宽的设置是影响datanode，设置单个datanode的balance带宽上限）：[-setBalancerBandwidth ][@rm.tv.hadoop.sohuno.com ~]$ hdfs dfsadmin -setBalancerBandwidth 50000000Balancer bandwidth is set to 50000000 for nn.tv.

2016-03-21 15:20:05 3694

原创 hadoop Balancer 流程

main()->Cli.run()->Balancer.run()boolean done = false;for(int iteration = 0; !done; iteration++) { done = true; // 打散多个namespace Collections.shuffle(connectors); for(NameNodeConnect

2016-03-21 15:10:56 969

原创通过webhdfs put文件到hdfs

通过rest API的webhdfs走的http，不需要安装hadoop客户端了。put代码如下：#!/bin/sh###################. /etc/profile. ~/.bash_profile##################echo =====================================`date`=======

2016-03-21 14:59:20 3817

原创 hadoop tasktracker 异常：PriviledgedActionException as:adlog cause:ENOENT: No such file or directory

今日发现一台tasktracker进入了Graylisted Nodes，查看其log发现如下报错：2015-04-10 11:53:49,539 INFO org.apache.hadoop.mapred.JobLocalizer: Initializing user rc on this TT.2015-04-10 11:53:49,549 WARN org.apache.h

2015-04-10 14:43:01 1800

原创 hadoop集群负载高导致的flume问题

flume->hdfs source是tail、channel是memory、sink是hdfsflume端报错：2015-01-29 01:55:58,424 (SinkRunner-PollingRunner-DefaultSinkProcessor) [WARN - org.apache.flume.sink.hdfs.BucketWriter.append(BucketWr

2015-01-29 14:11:07 2794

原创 hadoop job 抛出 Exception in thread "main" java.lang.NoClassDefFoundError: ___/tmp/hsperfdata_ 异常

hadoop的job抛出以下异常：Exception in thread "main" java.lang.NoClassDefFoundError: ___/tmp/hsperfdata_pctvlog/11835Caused by: java.lang.ClassNotFoundException: ___.tmp.hsperfdata_pctvlog.11835

2014-03-17 16:03:25 3423

原创 hadoop-2.2.0配合hive-0.12.0使用orc存储引发的bug

环境：hadoop版本：hadoop-2.2.0 （官网下载并编译为64位版本）hive版本：hive-0.12.0（官网下载后解压）集群状态良好，尝试普通hive以及mapreduce均成功。测试新版hive的orc存储格式，步骤如下：create external table text_test (id string,text string) row format

2014-03-13 18:54:08 5904 1

原创 hadoop2.0 执行框架

搭建hadoop2.0集群，按照官网上单机模式搭建，配置了三台节点，启动了resourcemanager以及三个nodemanager，结果运行job发现都是本地运行。查找原因是未加入如下配置mapred-site.xml mapreduce.framework.name yarn 集群框架默认是jobtracker也就是1.0框架。修改后集群运行。

2014-03-07 11:42:44 798

原创 hadoop1.0向hadoop2.0 distcp数据

报错：java.io.IOException: Check-sum mismatch between hftp://zw-tvhadoop-master:50070/user/hive/warehouse/pvlog_depth_rcfile/dt=20140306/_logs/history/job_201401231451_357062_1394133462287_tvhadoop_map

2014-03-07 11:34:46 1258

胖头鱼的专栏