自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(247)
  • 资源 (12)
  • 收藏
  • 关注

转载 nohup 命令

nohup 命令  用途:LINUX命令用法,不挂断地运行命令。  语法:nohup Command [ Arg ... ] [ & ]  描述:nohup 命令运行由 Command 参数和任何相关的 arg 参数指定的命令,忽略所有挂断(SIGHUP)信号。在注销后使用 nohup 命令运行后台中的程序。要运行后台中的 nohup 命令,添加

2014-06-25 15:26:02 377

原创 flume MemoryChannel 源码解析

1.先分析三个LinkedBlockingDeque类型的takeList,putList,queueputList:  存放的是来自source生产的数据,通过调用doPut(Event event)方法,它是如何到queue的,在每次执行doCommit的时候,会循环放到queue,其实doCommit()放法只做了putlist交给queue, synchronized(q

2014-04-22 13:49:58 927 1

原创 hive 整合 hbase

因为hbase不能进行复杂的查询,两表的join

2014-04-09 19:48:05 150

原创 hdfs DFSClient 源码分析2

这篇文章其实不是专门来讲DFSClient源码的,就光这个类就近4000行代码,不用说牵扯到其他类的代码,围绕着以下错误展开对DFSClient分析由于最近flume1.4.0报04 Apr 2014 07:11:53,111 WARN  [ResponseProcessor for block blk_326610323152553165_1164644] (org.apache.had

2014-04-05 14:20:38 955

转载 在大并发写时,HBase的HDFS DFSClient端报SocketTimeoutException的问题分析和解决

异常日志:2012-03-02 12:11:21,983 WARN org.apache.hadoop.hdfs.DFSClient: DFSOutputStream ResponseProcessor exception  for block blk_1439491087566691588_6207java.net.SocketTimeoutException: 69000 millis

2014-04-03 23:23:08 1051

原创 hdfs dfsclient 源码分析

HDFS读取文件的重要概念HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk(默认512Byte)组成。Chunk是进行数据校验的基本单位,对每一个chunk生成一个校验和(默认4Byte)并将校验和进行存储。在读取一个block的时候,数据传输的基本单位是packet,每个pa

2014-04-03 22:52:31 478

原创 hadoop dfs client写文件 源码分析

HdfsConfiguration会默认加载hdfs-default.xml,hdfs-site.xml文件public class HdfsConfiguration extends Configuration {  static {    addDeprecatedKeys();    // adds the default resources    Configuration.addDef

2014-04-03 21:32:24 127

转载 hbase介绍

history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop

2014-03-30 23:13:16 400

原创 flume 问题分析与处理

问题一:org.apache.flume.EventDeliveryException:Failed to send events       atorg.apache.flume.sink.AbstractRpcSink.process(AbstractRpcSink.java:382)       atorg.apache.flume.sink.DefaultSinkProcess

2014-03-30 11:50:18 4056

转载 Hadoop 2.0中用户安全伪装/模仿机制实现原理

from http://dongxicheng.org/mapreduce-nextgen/hadoop-secure-impersonation/本文将从用户伪装(impersonate,翻译成“模仿”也许更好些)角度介绍Hadoop安全机制,用户伪装机制使得Hadoop支持类似于linux “sudo”的功能,即用户A以用户B的身份执行功能。该机制属于Hadoop安全机制的一部分,因此适用

2014-03-26 22:21:17 1124

转载 samba 映射

from http://blog.csdn.net/zjw11763/article/details/8864191net use * /deleteC:\Documents and Settings\sh-zhongjw>net use会记录新的网络连接。状态       本地        远程                      网络------

2014-03-23 16:11:52 380

转载 daemontools 的安装

在使用memcached时候,怕因为一些不可预知的因素导致memcached进程死掉,而又不能及时的发现重启,可以通过daemontools来管理memcached的启动,当memcached死掉后系统会自动在5秒内重memcached;1、安装http://cr.yp.to/daemontools/daemontools-0.76.tar.gz下载tar zxf daem

2014-03-21 16:08:35 475

转载 storm 一致性事务

from http://blog.linezing.com/?p=1976第五章 一致性事务Storm是一个分布式的流处理系统,利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错,则可以被重传,但是如何保证出错的tuple只被处理一次呢?Storm提供了一套事务性组件Transaction Topology,用来解决这个问题。Transa

2014-03-20 11:18:30 301

原创 storm整合flume

flume-ng-configure,flume-ng-core,flume-ng-sdk

2014-03-18 23:51:15 94

转载 storm 进程自动关闭 fail-fast 使用daemontools 进行管理

Linux系统上运行服务(或daemons)的典型方法是使用initscripts,它是壳脚本的优化版,能够开始和停止服务。虽然这种方法对大部分来说都是适用的,但是高效的有效性却正在丢失。如果服务自己停止了,它就会无效了。另外一种运行服务的方法是使用D.J.Bernstein的Daemontools软件包。它运行一个叫做监督的Daemon,它能够监督它能启动的所有服务。如果一个服务停止了,

2014-03-18 20:21:55 1029

原创 Storm(报错)Found multiple defaults.yaml resources

运行storm-kafka应用程序的的时候报了这个错这个想了下,肿么会有多个呢,后面觉得应该是在应用的jar包里面也把storm的defaultsyarm打进去了。找了下只看到[html] view plaincopyspan style="font-size:14px;">                dependency>  

2014-03-16 14:57:02 657

转载 hive优化之------控制hive任务中的map数和reduce数

from http://superlxw1234.iteye.com/blog/1582880一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;

2014-03-12 21:37:06 533

转载 Java线程池使用说明

转自:http://blog.csdn.net/sd0902/article/details/8395677一简介线程的使用在java中占有极其重要的地位,在jdk1.4极其之前的jdk版本中,关于线程池的使用是极其简陋的。在jdk1.5之后这一情况有了很大的改观。Jdk1.5之后加入了java.util.concurrent包,这个包中主要介绍java中线程以及线程池的使用。为我

2014-03-11 21:46:30 268

转载 Java多线程笔记6-ThreadPoolExecutor/ExecutorService

Executor框架是指java 5中引入的一系列并发库中与executor相关的一些功能类,其中包括线程池,Executor,Executors,ExecutorService,CompletionService,Future,Callable等。他们的关系为: 并发编程的一种编程方式是把任务拆分为一些列的小任务,即Runnable,然后在提交给一个Executor执

2014-03-11 19:33:54 690

转载 Storm常见模式——求TOP N

from http://www.cnblogs.com/panfeng412/archive/2012/06/16/storm-common-patterns-of-streaming-top-n.htmlStorm的另一种常见模式是对流式数据进行所谓“streaming top N”的计算,它的特点是持续的在内存中按照某个统计指标(如出现次数)计算TOP N,然后每隔一定时间间隔输出实时计算

2014-03-09 15:02:38 398

原创 storm

storm 有Nimbus,Supervisor,Nimbus有点类似于hadoop的JobTracker,supervisor类似于tasktracker他们之间交互是通过zookeeper其实storm设计类似于hadoop,hadoop的job对应的是Topology通过官网方式,可能会遇到识别不了主机名的错误,通过修改主机名就不报错了export HOSTNAME=

2014-03-08 14:10:24 373

转载 Hive读取Flume正在写入的HDFS临时文件所遇到的问题

from http://www.sqlparty.com/hive%E8%AF%BB%E5%8F%96flume%E6%AD%A3%E5%9C%A8%E5%86%99%E5%85%A5%E7%9A%84hdfs%E4%B8%B4%E6%97%B6%E6%96%87%E4%BB%B6%E6%89%80%E9%81%87%E5%88%B0%E7%9A%84%E9%97%AE%E9%A2%98/

2014-03-07 12:42:24 1729 1

转载 hadoop 4.1.0 cdh4读文件源码分析

上篇文章分析了hadoop写文件的流程,既然明白了文件是怎么写入的,再来理解读就顺畅一些了。 同样的,本文主要探讨客户端的实现,同样的,我依然推荐读一下http://www.cnblogs.com/duguguiyu/archive/2009/02/22/1396034.html,读文件的大致流程如下:不论是文件读取,还是文件的写入,主控服务器扮演的都是中介的角色。客户

2014-03-06 23:53:10 360

转载 Hadoop 2.1.0-cdh4写文件源码分析

from http://blog.csdn.net/mrtitan/article/details/8581942上篇文章分析了hadoop写文件的流程,既然明白了文件是怎么写入的,再来理解读就顺畅一些了。 同样的,本文主要探讨客户端的实现,同样的,我依然推荐读一下http://www.cnblogs.com/duguguiyu/archive/2009/02/22/139

2014-03-06 23:52:06 379

原创 hadoop test题

http://blog.csdn.net/jiangheng0535/article/details/16800415

2014-03-06 23:49:29 267

原创 flume ExecSource 源码分析

public class ExecSource extends AbstractSource implements EventDrivenSource,Configurable关键静态内部类private static class ExecRunnable implements Runnablepublic ExecRunnable(String command, ChannelProce

2014-03-05 21:13:29 542

转载 滑动窗口在storm中的实现

from  http://blog.csdn.net/yangbutao/article/details/17851853滑动窗口在监控和统计应用的场景比较广泛,比如每隔一段时间(10s)统计最近30s的请求量或者异常次数,根据请求或者异常次数采取相应措施;这里说一下滑动窗口在storm中实现的原理。参见下图:窗口大小为30s,每10s就统计一次,那么窗口一

2014-03-04 22:27:41 625

转载 logback

from http://cat0425.popo.blog.163.com/blog/static/7959643920098177232182/class="ch.qos.logback.core.ConsoleAppender">%d{HH:mm:ss} [%thread] %-5level %logger{80} - %msg%n

2014-03-03 23:40:10 564

转载 linux 杀死进程自动化

from http://blog.csdn.net/smarxx/article/details/6664219long long ago,曾有一个想法,就是完全脱离windows,使用linux生活、工作。以前迫于各种专业工具不支持linux,只能无奈的使用xp。最近工作内 容是android移植+单片机开发,android就不说了,必须用linux开发。单片机也找到一些linux的工具

2014-03-02 17:42:25 525

转载 HDFS小文件问题及解决方案

from http://dongxicheng.org/mapreduce/hdfs-small-files-solution/小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一

2014-02-28 16:57:12 335

原创 flume 需要的hadoopjar包

hadoop-core-xxx.jarcommons-configuration-xx.jar

2014-02-28 10:11:15 914

转载 云监控 Ganglia 安装步骤 (含python module)

from http://my.oschina.net/duangr/blog/181585#OSC_h1_2前言1.相关环境2.部署规划3.代码获取4.前提依赖4.1 主机环境检查(全部主机节点)4.2 dejavu4.3 rrdtool4.4 apr4.5 libexpat4.6 libpcre4.7 confuse4.8 python5.

2014-02-27 21:17:52 480

转载 hive外部表使用分区partition(实时导数据)

from http://blog.csdn.net/azhao_dn/article/details/7713017 1)创建外部表[python] view plaincopycreate external table test(username String,work string) PARTITIONED BY(year S

2014-02-27 18:16:59 321

转载 flume-ng 使用系列

from http://blog.csdn.net/wuguangxue255/article/details/11710225对变名日志的处理,对于java工程可以简单修改log4j的配置文件,增加flume配置即可对于非java程序,采取规避的方案,当然如果你足够强大可以重写编译flume代码,自定义一个source type支持,将spoolDir 类型的source加强

2014-02-27 17:56:51 877

原创 flume集群

flume-ng agent --conf /root/flume-1.4.0/conf --conf-file  /root/flume-1.4.0/conf/a.conf --name a1 -Dflume.root.logger=INFO,consolecurl -X get -d '[{  "headers" :{"namenode" :  "namenode.example.com"

2014-02-22 17:21:08 817

转载 hive 中转义符使用问题

在写hive查询的时候,如果遇到特殊字符需要使用一些转义符进行转义,如:hive>select split(ip,’\&’) from students;通过转义,hive能识别&,并按&进行分割。但现实中使用会有一些问题,如hive>select split(ip,’\.’) from students;该语句无法安装’.'来分割ip。经过仔细研究发现需要

2014-02-20 11:17:42 569

转载 Hadoop 权限管理

如下图,hadoop访问控制分为两级,其中ServiceLevel Authorization为系统级,用于控制是否可以访问指定的服务,例如用户/组是否可以向集群提交Job,它是最基础的访问控制,优先于文件权限和mapred队列权限验证。Access Control on Job Queues在job调度策略层之上,控制mapred队列的权限。DFSPermmision用户控制文件权限。目前版本中

2014-02-20 09:23:23 318

转载 Hadoop计算能力调度器应用和配置

property> name>mapred.capacity-scheduler.queue.hive.supports-priorityname> value>truevalue> description>description> property> property> name>mapred.capacity-scheduler.queue.h

2014-02-19 15:18:24 322

原创 hive load data出错

今天往hive导数据时发生了个错误hive> load data inpath '/user/tmp/uids.test_copy_3.txt' into table userfeature.user_strategy partition(sid='203');Loading data to table userfeature.user_strategy partition (sid=203

2014-02-18 23:15:53 1329

转载 hive 中的多列进行group by查询方法

from http://blog.csdn.net/jiedushi/article/details/7579132在工作中用hive进行数据统计的时候,遇到一个用group by 进行查询的问题,需要统计的字段为gid,sid,user,roleid,time,status,map_id,num其中time字段为时间戳形式的,统计要求为将各个字段按照每个小时的num总

2014-02-17 14:24:32 469

pid讲解,嵌入式必学的pid算法!

嵌入式必学的pid算法!这里讲解了它的基本原理什么的以及它的应用,嵌入式必学的pid算法!

2012-05-20

C#学习资料

涵盖c#所有基础知识,以及重点和难点等等!

2012-05-20

历年考试DB2考试内容,必有。

历年考试DB2考试内容,必有

2012-03-24

db2考试题目

bd2 301A,703数据库考试认证题目!历年考试DB2考试内容,必有。

2012-03-24

DB2讲义,官方讲义

DB2考证资料,官方讲义,302A,705A,DB2 302,考证,

2012-03-20

软考试题解析资料

软考试题解析资料,程序员,软件设计师,系统设计师,网络管理员等等关于软考的!

2011-10-16

数据结构

学习数据结构的好资料,这也是学习数据结构的资料的!包括哈夫曼树,关键路径,最短路径等等!

2011-10-03

qt 做的qq,界面话,效率高

不仅是学习的好代码,也是网络编程的好代码!涉及多线程!效率高!

2011-10-03

qt oracle的驱动

自己编译的oracle的驱动,纯天然的,最好是2010.05版本的,对于qt开源版,你有嫌麻烦的,就下一个把!

2011-10-03

3D游戏编程代码

一个dx学习的号代码,它加载了.x文件,界面不错!

2011-09-24

vc游戏编程电子书

有图,有代码,有步骤,step to step 透明贴图,双缓冲贴图,游戏框架

2011-09-12

vc++游戏编程

我刚学游戏编程用的就是他,从mfc开始,容易上进!

2011-09-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除