自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 资源 (16)
  • 收藏
  • 关注

转载 Orcfile文件格式解析(2)

上篇文章从整体介绍了Orcfile的存储格式,接下来重点介绍下Orc里用到的几种编码格式:    字典编码:用于String类型的字段    Run-Length编码:用于int,long,short等类型的编码    Bit编码:可以用于各种数据类型1,字典编码:    对于String类型的每个字段分别保存一个字典,记录每个值在字典中的位置,保存

2014-09-04 17:18:39 1193

转载 Orcfile文件格式解析(1)

Orcfile(Optimized Row Columnar)是hive 0.11版里引入的新的存储格式,是对之前的RCFile存储格式的优化。写这个的哥们来自于HortonWorks,代码写的很不错,比之前的rcfile强多了(据说rcfile是个中科院的童鞋跑去facebook写的,看来中国的计算机教育水平还是有限啊。。。囧,跑题了)    先介绍下Orc的文件格式,截一张官方的图:

2014-09-04 16:53:34 1237

转载 vim快捷键

2014-08-11 21:09:09 681

转载 VIM 代码折叠

VIM 代码折叠VIM代码折叠方式可以用"foldmethod"选项来设置,如: set foldmethod=indent有6种方式来折叠代码1. manual //手工定义折叠2. indent //用缩进表示折叠3. expr  //用表达式来定义折叠4. syntax //用语法高亮来定义折叠5. diff   //对没有更改的文本进行折叠6.

2014-08-11 21:04:39 594

转载 Python正则表达式指南

Python正则表达式指南本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。注意:本文基于Python2.4完成;如果看到不明白的词汇请记得百度谷歌或维基,whatever。尊重作者的劳动,转载请注明作者及原文地址

2014-08-11 20:09:12 593 1

原创 Hadoop工作流引擎之Oozie3.3.2

Hadoop工作流引擎之Oozie3.3.2介绍Oozie是一个由Yahoo开发,用于运行Hadoop工作流的开源工作流引擎。作为一个Java Web程序,它运行在Java Servlet容器中,如Tomcat,并且使用数据库来存储Hadoop工作流的定义和当前运行实例包括实例的状态和变量等。Oozie目前支持的任务包括M/R Job,Streaming Job ,Pi

2014-08-11 20:06:57 8130

原创 Oozie配置说明

Oozie配置说明Oozie数据库配置,修改oozie-site.xml文件            oozie.db.schema.name        oozie                    Oozie DataBase Name                        oozie.service.JPAService.creat

2014-08-11 20:06:05 5018

原创 Hadoop工作流引擎之Azkaban

Hadoop工作流引擎之Azkaban介绍Azkaban是twitter出的一个任务调度系统,操作比Oozie要简单很多而且非常直观,提供的功能比较简单。Azkaban以Flow为执行单元进行定时调度,Flow就是预定义好的由一个或多个可存在依赖关系的Job组成的工作流。Azkaban的官方主页是http://azkaban.github.io/azkaban2/ ,它的的

2014-08-11 20:05:36 5271

转载 Hadoop工作流引擎之JobControl

Hadoop工作流引擎之JobControlHadoop自带的工作流控制主要包括依赖关系组合式(JobControl)MapReduce和链式(Chain)MapReduce两类。PS:需要注意的是目前由于Hadoop有新旧两套API,分别对应源代码里的mapred和mapreduce两个包,JobControl和Chain在这两种API中的用法是不一样的,而且Hadoop1.x目前海

2014-08-11 20:03:58 1505

转载 GNU Parallel

GNU Parallel它是什么?指南预备parallel >= version 20130814abc-filedef-fileabc0-fileabc_-filetsv_file.tsvnum30000num1000000num_%header远程执行:ssh免密码登录$SERVER1和$SERVER2输入源单个输入源多输入源

2014-08-11 20:01:38 1177

转载 shell 字符串处理

在做shell批处理程序时候,经常会涉及到字符串相关操作。有很多命令语句,如:awk,sed都可以做字符串各种操作。 其实shell内置一系列操作符号,可以达到类似效果,大家知道,使用内部操作符会省略启动外部程序等时间,因此速度会非常的快。 一、判断读取字符串值表达式含义${var}变量var的值, 与$var相同

2014-08-11 20:00:58 719

转载 Rank() over()的用法

Rank() over()的用法1,2,2,4,5,6.。。。。这是rank()的形式1,2,2,3,4,5,。。。。这是dense_rank()的形式1,2,3,4,5,6.。。。。。这是row_number()涵数形式创建一个test表,并插入6条数据。CREATE TABLEtest(

2014-08-11 19:57:55 727

转载 hive merge小文件

hive merge小文件当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个表写数据时,也需要注意输出文件大小1. Map输入合并小文件对应参

2014-08-11 19:56:35 529

转载 HBase shell commands

HBase shell commandsAs told in HBase introduction, HBase provides Extensible jruby-based (JIRB) shell as a feature to execute some commands(each command represents one functionality).HBase she

2014-08-11 19:54:06 989

转载 Lateral View语法

Lateral View语法lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)*fromClause: FROM baseTable (lateralView)*描述lateral view用于和split, explode等UDTF一起使用,它能

2014-08-11 19:53:22 761

原创 YCSB简介

YCSB如何运行:https://github.com/brianfrankcooper/YCSB/wiki/Running-a-Workload推荐操作顺利:https://github.com/brianfrankcooper/YCSB/wiki/Core-Workloads如何扩展:https://github.com/brianfrankcooper/YCSB/wiki/I

2014-08-11 19:49:41 5039

原创 Phoenix(sql on hbase)简介

Phoenix(sql on hbase)简介介绍:Phoenix is a SQL skin over HBase delivered as a client-embedded JDBC driver targeting low latency queries over HBase data. Phoenix takes your SQL query, compile

2014-08-11 19:46:31 5227

原创 MapReduce源码浅析

13年初整理的一个关于MapReduce的简单介绍和总结,希望对大家有所帮助,同学欢迎交流JVM、Spark、Hadoop等技术。

2014-08-11 19:32:40 789

原创 JMM介绍

关于Java内存模型的一个简单介绍和总结,希望能对大家有所帮助。

2014-08-11 19:19:05 955

转载 hive 结合执行计划 分析 limit 执行原理

在hive查询中要限制查询输出条数, 可以用limit 关键词指定,如 select columnname1 from table1 limit 10; 这样hive将输出符合查询条件的10个记录,从根本上说, hive是hadoop提交作业的客户端,它使用antlr词法语法分析工具,对SQL进行分析优化后翻译成一系列MapReduce作业,向hadoop提交运行作业以得到结果.   看一条简

2013-12-13 13:08:48 869

转载 HBase修改压缩格式及Snappy压缩实测分享

HBase修改压缩格式及Snappy压缩实测分享一、要点有关Snappy的相关介绍可参看Hadoop压缩-SNAPPY算法,如果想安装Snappy,可以参看Hadoop HBase 配置 安装 Snappy 终极教程。1. HBase修改Table压缩格式步骤2. 实测结果分享二、HBase修改Table压缩格式步骤修改HBase压缩算法很简单,只需要如下几步:

2013-12-03 15:58:39 1019

转载 window和linux换行符处理

换行方式在早期的打印机时代,开始新的一行要占用两个字符的时间。如果到了一行的结尾处,你要快速回到新的一行的开头,需要打印针头在纸面上飞快地掠过,常常会在纸面上留下污点。解决这个问题的办法就是,用两个字符:一个字符来移到第一列,另一个字符来新增一行。计算机产生以后,存储较为昂贵,在如何解决回车换行这个老问题上,人们产生了不同的意见。UNIX人认为在到达一行的结尾时新增一行 (LF),而Mac

2013-11-07 23:12:43 1892

转载 ubuntu增加hosts

Ubuntu系统的Hosts只需修改/etc/hosts文件,在目录中还有一个hosts.conf文件,刚开始还以为只需要修改这个就可以了,结果发现是需要修改hosts。修改完之后要重启网络。具体过程如下:1、修改hostssudo gedit /etc/hosts2、添加解析记录( . )完整案例:127.0.0.1 localhost.localdomain localho

2013-10-08 18:09:44 1108

转载 MySQL新建用户,授权,删除用户,修改密码

首先要声明一下:一般情况下,修改MySQL密码,授权,是需要有mysql里的root权限的。注:本操作是在WIN命令提示符下,phpMyAdmin同样适用。    用户:phplamp  用户数据库:phplampDB1.新建用户。//登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.

2013-10-08 17:11:48 760

转载 Xshell传输文件

用rz,sz命令在xshell传输文件很好用,然后有时候想在windows和linux上传或下载某个文件,其实有个很简单的方法就是rz,sz首先你的Ubuntu需要安装rz.sz(如果没有安装请执行以下命令,安装完的请跳过.其它版本linux请自行安装相应软件)sudo apt-get install lrzsz安装完毕即可使用rz,sz

2013-10-07 10:03:55 787

原创 vim7.0配置python自动补全

1,下载pydiction-1.2.zipcomplete-dict  pydiction.py  python_pydiction.vim  README.txtpython_pydiction.vim 放入~/.vim/after/ftplugincomplete-dict 放入~/vim/下(任意位置都行,需要被g:pydiction_location指定 ,如果

2013-10-01 14:12:47 926

原创 git克隆SSL报错

错误:正克隆到 'dotfiles'...fatal: unable to access 'https://github.com/sontek/dotfiles.git/': SSL certificate problem, verify that the CA cert is OK. Details:error:14090086:SSL routines:SSL3_GET_SERVER_

2013-10-01 11:25:19 1353

转载 sqoop 从 hive 导到mysql遇到的问题

周海汉/文 2013.8.22环境hive 版本hive-0.11.0sqoop 版本 sqoop-1.4.4.bin__hadoop-1.0.0从hive导到mysqlmysql 表:mysql> desc cps_activation;+————+————-+——+—–+———+—————-+| Field | Type |

2013-08-29 11:42:44 2603

转载 基于hadoop集群的hive 安装(mysql,derby)

基于hadoop集群的hive安装步骤   ----嵌入式derby 模式安装环境hadoop已经安装结束,mysql已经安装结束。hive是安装在集群中的主节点上(hostname:node0)hadoop 版本号:hadoop-0.23.5 hive版本号:hive-0.8.1 derby版本号:db-derby-10.9.1.0mysq

2013-08-29 11:40:00 912

原创 资料集合

MRUnit测试:https://cwiki.apache.org/confluence/display/MRUNIT/MRUnit+TutorialOFFICE2010激活码:VYBBJ-TRJPB-QFQRF-QFT4D-H3GVB

2013-05-17 17:01:18 610

转载 JVM调优小结

堆大小设置JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制;系统的可用虚拟内存限制;系统的可用物理内存限制。32位系统下,一般限制在1.5G~2G;64为操作系统对内存无限制。我在Windows Server 2003 系统,3.5G物理内存,JDK5.0下测试,最大可设置为1478m。典型设置:java -Xmx3550m -Xms355

2013-05-16 15:42:02 526

转载 buffers/cache

这是我查到的,很好的解释,供参考!这也是让我们更深入的理解此FREE命令,及linux内核处理内存的机制了:我的linux执行free命令显示如下:[root@Linux /tmp]# free             total       used       free     shared    buffers     cachedMem:       414

2013-05-13 09:56:11 877

转载 JobTracker心跳优化

马上要开始第二阶段优化了,赶快把第一阶段优化内容及结果贴下。•背景–繁忙时段98%~100%的handler线程被BLOCK–RPC请求堆积•Profiling工具 (定位瓶颈)–jstack线上环境使用–yjp测试环境使用优化一:避免频繁调用加锁方法•500次连续jstack结果分析

2013-05-12 22:42:11 637

转载 JobTracker dump内存记录

1、dump命令行:jmap -dump:live,format=b,file=heap.bin 93592、dump时机:CMS GC结束后,这时heap最小,Full GC也最快2012-05-02T22:08:11.226+0800: 470959.079: [GC [1 CMS-initial-mark: 103404048K(121634816K)]

2013-05-12 22:41:29 541

转载 可读的JVM GC时间戳

当我们诊断Java应用程序的问题时,能够查到垃圾回收的状况是非常有帮助的。一个基本的最基础的方法是开启垃圾回收日志。也许你已经知道了,如果我们把下面的参数加到java启动命令行中,-Xloggc: –XX:+PrintGCDetails -XX:+PrintGCDateStampsJVM就会将垃圾回收信息写到-Xloggc设置的文件中。日志格式如下:2010-04-

2013-05-12 22:39:23 2482

转载 远程调试Hadoop

在调研JobTracker等异常问题时经常需要远程debug以实现单步跟踪。相对于打印日志,远程调试更方面更快捷,信息也更全面。这里列出远程调试的基本步骤。1、配置jvm选项启用远程debugHadoop的所有deamon启动都是bin/hadoop脚本实现的,该脚本最后一行会执行java命令来启动JVM进程。因此要启用远程debug,只需要修改该脚本最后一行即可。修改前最

2013-05-12 22:36:39 630

转载 hadoop远程调试

之前的一篇blog里讲述了hadoop单机版调试的方法,那种调试只限于单机运行hadoop命令而已,对于运行整个hadoop环境而言是不可取的,因为hadoop会开启多个java进程,如果统一为一个端口启动,则启动会报错说端口被占用,同时对于jdwp agent而言也只能加载一次,故调试时单机只能有一个java进程开启debug模式,其实这个也足够了。 通过分析hadoop的启动脚

2013-05-12 21:45:30 799

转载 对Hadoop源代码中Child类的调试方法

网上有很多关于Hadoop源代码远程调试的文章,但是大多数是关于JobTracker,TaskTracker,NameNode,DataNode,SecondNameNode的。很少有介绍如何调试child类的。然而真正的Map任务和Reduce任务都是通过Child类运行的,所以要想搞清楚MapReduce如何运行,必须要搞清楚如何远程调试Child类。        实际上远程调试Ch

2013-05-12 21:31:40 642

原创 hadoop插件编译

hadoop1.0.0及以上版本的eclipse插件编译方法跟0.20.2不太一样,今天探索了一下,故留此文纪念之。注:HADOOP_HOME为hadoop主目录。ECLIPSE_HOME为eclipse安装目录。1,进入HADOOP_HOMEsrc/contrib/eclipse-plugin目录     修改build.xml,在文件最后添加

2013-05-12 17:19:05 953

原创 eclipse创建hadoop源码工程

hadoop1.0.0之后源码编译跟之前不太一样,今天探索了一下,故写此文章留做笔记。此文内容是我刚刚做了一遍,所以如果版本和我一致,绝对好使。先说版本:jdk1.7(1.6以上应该都可以)ant1.9(目前最新版本)eclipse helios(indigo以及以上版本不可以,已经测试)centos6.0准备工作:1,jdkJAVA_HOME=

2013-05-12 16:50:09 2187

JVM与Hadoop介绍

Java虚拟机与Hadoop的介绍,附带一些源码分析

2014-08-11

100个经典的C算法

100个经典的C算法

2012-03-25

jquery_api.chm

jquery_api.chm 中文api完整版

2011-12-21

mysql jdbc驱动

mysql jdbc驱动 驱动是一个完整jar文件,使用时直接加载就OK

2011-12-12

线程池源码

线程池源码工程文件 自己用java写的线程池

2011-12-12

TCPClient工程文件

TCPClient java 客户端 源码 工程文件

2011-12-12

TCPServer java

TCPServer java 服务器 源码 工程文件

2011-12-12

《Android应用开发揭秘》源码.rar

《Android应用开发揭秘》 源码 完整版

2011-12-12

Android开发视频教学源码 第三季

Android开发视频教学源码 第一季完整版

2011-12-12

Android开发视频教学源码 第二季

Android开发视频教学源码 第二季完整版

2011-12-12

Android开发视频教学源码.rar

Android开发视频教学源码 第一季 完整版

2011-12-12

Tomcat中文帮助.rar

Tomcat中文帮助,Tomcat中文API

2011-02-27

韩顺平servlet源码文件.rar

韩顺平servlet源码文件,韩老师授课的源代码,附工程文件

2011-02-27

中文servletapi.rar

中文servletapi ,对学习servlet的朋友相当有用

2011-02-27

ajax教程(附源码)

ajax详细教程,里面有详细的ajax技术教程以及涉及到 的源代码

2011-02-26

Java反编译器压缩包

文件解压后将解压后的.exe和你的.class文件放到一个文件夹里面,然后双击该.exe文件就会根据你的.class文件生成.java文件。

2010-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除