自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(172)
  • 资源 (5)
  • 收藏
  • 关注

walter的drill笔试之二-安装与部署

安装系统环境linux版本:redhat6jdk:jdk1.71.本地安装与测试1.1安装1.1.1下载Drill M1 binary release http://people.apache.org/~jacques/apache-drill-1.0.0-m1.rc3/apache-drill-1.0.0-m1-binary-release.tar.gz1.1...

2013-12-10 16:01:14 307

原创 安装zookeeper并部署分布式模式

一、官方网站下载zookeeper-3.4.5:http://www.apache.org/dyn/closer.cgi/zookeeper/二、将下载得到的zookeeper-3.4.5.tar.gz放到指定的目录中,自己统一放在了/home/{用户名}下,tar解压缩,创建zookeeper链接ln -s zookeeper-3.4.5 zookeeper三、设置环境变量:   ...

2013-12-10 15:52:16 164

walter的dril笔记之一-简介

Drill:大数据的交互式分析简介        Dril是开源世界中“交互式”的数据分析系统。目标是可以组建超过10000台机器的集群,并且可以在秒级处理PB级别或者万亿条数据。Hadoop作为大数据处理的事实标准,设计目标是实现大数据处理的高吞吐量。MapReduce处理一个数据,需要分钟级的时间。而业界对交互式的低延迟的数据分析和挖掘提出了新的需求,Google的Dremel希望...

2013-12-10 14:16:03 191

原创 【转】Google Dremel 原理 - 如何能3秒分析1PB

简介 Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Dremel作为Google BigQuery的report引擎,获得了很大的成功。最近Apache计划推出Dr...

2013-12-03 14:23:18 203

storm调研

经过对storm的初步了解,storm 主要运用于实时计算,并且可以自定义数据流的逻辑拓扑结构。下面是一些说明。storm是否符合您的应用场景?如果还有其他需求,也请提出来。 在使用方式上简单的与hadoop比较:hadoop数据源一般是离线的、静态的   storm数据源一般是实时的,可与kafka结合hadoop数据处理完成,自动结束任务   需要手动关闭处理hadoo...

2013-10-15 15:36:40 112

Hadoop YARN框架调研以及问题总结

Hadoop YARN框架调研以及问题总结1.YARN总体介绍 YARN的根本思想是将 JobTracker 两个主要的功能分离成单独的组件,分别是全局资源管理器(Resouce Manager ,RM)和每个应用独有的Application Master(AM)。RM管理所有应用程序计算资源的分配,每一个应用的 ApplicationMaster 负责相应的调度和协调。1.1...

2013-10-15 15:04:52 132

原创 SQL删除重复记录

在几千条记录里,存在着些相同的记录,如何能用SQL语句,删除掉重复的呢?1、查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断select * from peoplewhere peopleId in (select  peopleId  from  people  group  by  peopleId  having  count(peopleId) &gt...

2013-10-11 10:44:33 77

清除C/C++/JAVA中的注释

 import java.io.FileInputStream;import java.io.PrintStream;import java.util.Scanner;/* ********\\\\\\\\\\/////////******** this is test program this is test program this is test progr...

2013-09-27 12:49:30 131

原创 jsp velocity freemarker 比较

jsp是大家最熟悉的技术 优点: 1、功能强大,可以写java代码 2、支持jsp标签(jsp tag) 3、支持表达式语言(el) 4、官方标准,用户群广,丰富的第三方jsp标签库 5、性能良好。jsp编译成class文件执行,有很好的性能表现 缺点: jsp没有明显缺点,非要挑点骨头那就是,由于可以编写java代码,如使用不当容易破坏mvc结构。 velocity是较早出现的用于代替jsp的...

2013-09-06 10:57:32 87

原创 infobright的中文编码问题

中文乱码的问题的终极解决方案就是所有地方都用同一个字符集,gbk或者utf8,我选用了utf8infobright的设置方法和mysql自身的大同小异1.新建数据库时设置default character set 为utf8,defualt collation为utf8_bin2.新建表时也指定为utf83.设置/etc/my-ib.cnf中collation_server=...

2013-09-04 18:23:39 190

基于云计算平台的并行数据库分布式LOAD算法的改进

本文发表在Proceedings of IEEE CCIS2012 地址:http://www.cnki.net/KCMS/detail/detail.aspx?QueryID=1&CurRec=1&recid=&filename=IEEE201210004130&dbname=IPFDLAST2013&dbcode=IPFD&pr=&...

2013-08-25 22:33:45 99

原创 HTTP协议详解

引言                                        HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of H...

2013-08-20 11:57:18 106

原创 RESTFul以及实现

什么是REST?REST (REpresentation State Transfer) 描述了一个架构样式的网络系统,比如 web 应用程序。它首次出现在 2000 年 Roy Fielding 的博士论文中,他是 HTTP 规范的主要编写者之一。REST 指的是一组架构约束条件和原则。满足这些约束条件和原则的应用程序或设计就是 RESTful。Web 应用程序最重要的 REST 原...

2013-08-20 11:42:25 119

原创 海量数据处理之四:堆

什么是堆】 概念:堆是一种特殊的二叉树,具备以下两种性质 1)每个节点的值都大于(或者都小于,称为最小堆)其子节点的值 2)树是完全平衡的,并且最后一层的树叶都在最左边 这样就定义了一个最大堆。 那么下面介绍二叉堆:二叉堆是一种完全二叉树,其任意子树的左右节点(如果有的话)的键值一定比根节点大,上图其实就是一个二叉堆。你一定发觉了,最小的一个元素就是数组第一个元素,那么二叉堆这种有...

2013-08-19 19:59:44 124

原创 atoi源代码

isspace(int x){ if(x==' '||x=='\t'||x=='\n'||x=='\f'||x=='\b'||x=='\r')  return 1; else    return 0;}isdigit(int x){ if(x<='9'&&x>='0')           return 1;x`  else   return 0;}int at...

2013-08-19 19:59:33 101

原创 Infobright查询优化

前面已经分析了Infobright的构架,简要介绍了Infobright的压缩过程和工作原理。现在来讨论查询优化的问题。    (1)配置环境    在Linux下面,Infobright环境的配置可以根据README里的要求,配置brighthouse.ini文件。  (2) 选取高效的数据类型    参见前面章节。  (3)使用comment lookup   ...

2013-08-19 19:59:19 139

原创 海量数据处理之五:面试题整理

1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M...

2013-08-04 12:22:12 95

原创 海量数据处理之三:Hash

【什么是Hash】  Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函...

2013-08-04 12:19:45 92

原创 海量数据处理之二:Bloom Filter

【什么是Bloom Filter】Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在...

2013-08-04 12:17:11 124

原创 海量数据处理之一:Bitmap

【什么是Bit-map】所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-map的方法来达到排...

2013-08-04 12:12:57 89

原创 Bloom Filter概念和原理

Bloom Filter概念和原理  Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应...

2013-08-04 11:27:45 73

原创 Infobright comment lookup使用

前面的章节一直涉及到comment lookup,这里将简单介绍comment lookup的使用。  comment lookup只能显式地使用在char或者varchar上面。Comment Lookup可以减少存储空间,提高压缩率,对char和varchar字段采用comment lookup可以提高查询效率。  Comment Lookup实现机制很像位图索引,实现上利用简短的数...

2013-07-25 23:40:13 94

原创 Infobright的数据类型

Infobright里面支持所有的MySQL原有的数据类型。其中Integer类型比其他数据类型更加高效。尽可能使用以下的数据类型:  TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT  DECIMAL(尽量减少小数点位数)  DATE ,TIME  效率比较低的、不推荐使用的数据类型有:  BINARY VARBINARY  FLOAT ...

2013-07-25 23:36:04 135

原创 Infobright工作原理

前面已经简要分析了Infobright的构架,现在来介绍Infobright的工作原理。  粗糙集(Rough Sets)是Infobright的核心技术之一。Infobright在执行查询的时候会根据知识网络(Knowledge Grid)把DP分成三类:  相关的DP(Relevant Packs),满足查询条件限制的DP  不相关的DP(Irrelevant Packs),不...

2013-07-25 23:35:18 183

原创 列式数据库之infobright

infobright的优点有很多,简单列举如下:    Infobright的优点: (1)高压缩比率 (2)快速响应复杂的分析查询语句 (3)随着数据库的逐渐增大,查询和装载性能基本保持稳定 (4)没有特殊的数据仓库模型(比如星状模型、雪花模型)要求 (5)无需要物化视图、复杂的数据分区策略、索引 (6)实施...

2013-07-25 23:32:57 106

原创 Infobright构架分析

Infobright的总体构架图如下:    如上图所示,Infobright采用了和MySQL一致的构架,分为两层。上层是服务及应用管理,下层是存储引擎。Infobright的默认存储引擎是brighthouse,但是Infobright还可以支持其他的存储引擎,比如MyISAM、MRG_MyISAM、Memory、CSV。Infobright通过三层来组织数据,分别是DP(Data ...

2013-07-25 15:27:48 69

原创 两阶段提交协议(two phase commit protocol,2PC)

两阶段提交协议(two phase commit protocol,2PC)可以保证数据的强一致性,许多分布式关系型数据管理系统采用此协议来完成分布式事务。它是协调所有分布式原子事务参与者,并决定提交或取消(回滚)的分布式算法。同时也是解决一致性问题的一致性算法。该算法能够解决很多的临时性系统故障(包括进程、网络节点、通信等故障),被广泛地使用。但是,它并不能够通过配置来解决所有的故障,在某些情...

2013-07-24 16:15:13 128

原创 深入JAVA虚拟机

判断对象已经死的方法:1.引用计数法 2根搜索算法GC Roots:1 虚拟机栈(栈帧中的本地变量表)中的引用对象。 2 方法区中的类静态属性引用的对象。3 方法区中的常量引用的对象。4 本地方法栈中JNI(即一般说的Native方法)的引用的对象。四种引用:1.强引用只要引用还存在,垃圾收集器永远不会回收掉被引用的对象2.软引用(SoftReference)用来...

2013-07-24 16:11:32 69

原创 数据库事务隔离级别与封锁协议

一、事务的4个基本特征 1、原子性 (Atomicity )      要么全执行,要么都不执行。2、一致性( Consistency )      事务在系统完整性中实施一致性,这通过保证系统的任何事务最后都处于有效状态来实现。3、隔离性 ( Isolation)     在隔离状态执行事务,使它们好像是系统在给定时间内执行的唯一操作。4、持久性 (Durabili...

2013-07-24 15:49:25 419

原创 MySQL Infobright-数据仓库笔记

由于项目中的登录log一直比较大,目前是每周切分一张表,每次做月季度数据分析的时候就很痛苦,今天特定请教了一下公司DBA的同学,学到了两个解决方法。一个是把每天的登录按照位运算的形式保存,查询的时候使用bit_count(field)来计算,速度会大大提升,这个以后在项目中实践了再来分享;另一个就是使用Infobright引擎,Infobright是一个列存数据仓库软件,可以与MySQL集成,...

2013-07-18 18:01:02 146

原创 Nosql数据库笔谈

NoSQL数据库笔谈 序思想篇CAP最终一致性变体BASE其他I/O的五分钟法则不要删除数据RAM是硬盘,硬盘是磁带Amdahl定律和Gustafson定律万兆以太网手段篇一致性哈希亚马逊的现状算法的选择Quorum NRWVector clockVirtual nodego...

2013-07-18 12:14:11 433

原创 数据库查询的3个优化方法

 在优化查询中,数据库应用(如MySQL)即意味着对工具的操作与使用。使用索引、使用EXPLAIN分析查询以及调整MySQL的内部配置可达到优化查询的目的。  任何一位数据库程序员都会有这样的体会:高通信量的数据库驱动程序中,一条糟糕的SQL查询语句可对整个应用程序的运行产生严重的影响,其不仅消耗掉更多的数据库时间,且它将对其他应用组件产生影响。  如同其它学科,优化查...

2013-07-17 20:57:35 130

编程语言的一些基本概念

1. 编译型和解释型:     1.1 编译型语言写的程序执行之前,需要一个专门的编译过程,把程序编译成为机器语言的文件,比如exe文件。     1.2 解释型语言的程序不需要编译,省了道工序,解释性语言在运行程序的时候才翻译。 2. 动态语言和静态语言(对应变量而言):    2.1 动态语言:一种在执行期间才去发现数据类型的语言, 动态语言是指程序在运行时可以改变其结...

2013-07-16 18:51:38 120

原创 spring security3.1开发样例

Spring Security3的使用方法有4种:    一种是全部利用配置文件,将用户、权限、资源(url)硬编码在xml文件中。    二种是用户和权限用数据库存储,而资源(url)和权限的对应采用硬编码配置。    三种是细分角色和权限,并将用户、角色、权限和资源均采用数据库存储,并且自定义过滤器,代替原有的FilterSecurityInterceptor过滤器,并分别实现A...

2013-07-13 15:33:11 90

原创 通过Map-Reduce实现Join系列之四

在本系列的前面几篇文章中,主要介绍了利用Map-Reduce任务来完成两个或者多个文件的Join操作的一些算法和思路。基于的前提是对这些文件在相同的列上进行Join,本文将要讨论如何通过Map-Reduce任务来完成对多个文件在不同列上进行Join。由于需要在不同的列上进行Join,涉及到的文件个数至少会是三个,比如有三个文件T1(A,B)、T2(B,C)、T3(C,D),T1和T2基于B列进行...

2013-07-11 23:43:58 74

原创 通过Map-Reduce实现Join系列之三

在这个系列的前两篇中,介绍了基本的Join算法以及在Hadoop环境中,如何利用Map-Reduce过程来完成Join。而前面的介绍都是基于两个集合的Join,本文将会介绍利用Map-Reduce来完成2个以上文件的Join的相关算法(Multi-way join algorithms)。基本的思路与第二篇文章中介绍的Map-Reduce Join类似,根据将这个算法扩展到多个文件的方式,可以分...

2013-07-11 23:39:11 74

原创 通过Map-Reduce实现Join系列之二

在本系列的第一篇中,介绍了几种在数据库应用中常见的Join算法,本文将会介绍两种使用Map-Reduce实现对两个数据集合进行Join的算法,其中的一种会用到第一篇中提到的哈希Join算法。这里将这两种方法分别命名为Map-Reduce Join和Map-Only Join。 1. Map-Reduce Join 这种Join方法,需要在hadoop上执行一个完整的Map-Reduce过程。下...

2013-07-11 23:37:47 65

原创 通过Map-Reduce实现Join系列之一

本系列的开篇在提到使用Map-Reduce实现Join之前,先来看看目前在数据库中应用比较广泛和流行的集中Join算法。它们分别是嵌套循环Join(Nested Loops Join)、排序合并Join(Sort-Merge Join)和哈希Join(Hash Join)。 1.嵌套循环Join Java代码  for R中的每一条记录r do      for ...

2013-07-11 23:36:28 51

原创 MapReduce中的两表join几种方案简介

1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2...

2013-07-11 22:48:28 155

原创 Google Dremel 原理 – 如何能3秒分析1PB

来源:颜开的博客简介Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Dremel作为Google BigQuery的report引擎,获得了很大的成功。最近Apache...

2013-07-10 21:03:52 101

数据结构1800题和答案

数据结构1800题,计算机考研,你懂的。。。

2010-08-11

servlet 中文API

sevlet 中文 API CHM格式 不多说,自己拿回去用吧。

2010-06-12

730 731 认证 题库

IBM730 731 考试的题库,全本人已通过考试。有注解方便记忆

2010-06-12

linux 简单入门教程

这是学校的Linux课件,简单入门。 这是学校的Linux课件,简单入门。

2008-12-14

linux入门pdf

这是linux入门教程,非常简单实用. 第一章linux简介 第二章文件系统 第三章用户管理 第四章服务管理 第五章网络配置 第六章web服务器的配置 第七章域名服务器

2008-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除