hua840812-CSDN博客

转载 Windows7下JDK+Tomcat的安装与配置

http://luorenhuan.blog.163.com/blog/static/184817309201132244636418/Windows7下JDK+Tomcat的安装与配置 2011-04-22 16:48:31| 分类： Windows7|举报|字号订阅今天在装tomcat是遇到了一个很常见的问题，即tomcat

2014-08-26 11:48:27 766

转载 Windows下安装配置Solr (tomcat7.0)

http://blog.csdn.net/liuweitoo/article/details/8129632

2014-08-26 10:49:43 637

转载 Spark源码分析 – Shuffle

HadoopHadoop的思路是, 在mapper端每次当memory buffer中的数据快满的时候, 先将memory中的数据, 按partition进行划分, 然后各自存成小文件, 这样当buffer不断的spill的时候, 就会产生大量的小文件所以Hadoop后面直到reduce之前做的所有的事情其实就是不断的merge, 基于文件的多路并归排序, 在map端的将相同part

2014-07-22 10:29:23 870

转载 Hadoop2.0的HA介绍

前一篇文章介绍了Hadoop2.0（hadoop2.0架构，具体版本是hadoop2.2.0）的安装和最基本的配置（见http://www.linuxidc.com/Linux/2014-05/101173.htm ），并没有配置HA（High Avalability，高可用性），接下来的文章中会介绍hadoop2.0HA的配置。在介绍hadoop2.0的HA配置之前，本文先介绍hadoop2

2014-06-16 16:50:41 656

转载 Hadoop 2.0 NameNode HA和Federation实践

一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案，由于行业的特殊性，客户对服务的可用性有着非常高的要求，而HDFS长久以来都被单点故障的问题所困扰，直到Apache Hadoop在2012年5月发布了2.0的alpha版本，其中MRv2还很不成熟，可HDFS的新功能已经基本可用，尤其是其中的的High Availability

2014-06-16 16:11:18 688

转载 Hadoop2.0术语解释

2.2　Hadoop基础知识2.2.1　术语解释为了便于本书讲解Hadoop YARN，本小节对Hadoop涉及的术语进行比较全面的介绍。（1）Hadoop 1.0 Hadoop 1.0即第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，MapReduce由一个JobT

2014-06-16 16:04:51 633

转载 Hadoop0.23.0初探1---前因后果

最近Hadoop社区最火热的事情莫过于Hortonworks公布了Hadoop最新版本(0.23.0)，它标志着Hadoop新时代的到来。本文作为系列文章的第一篇，将结合Hadoop-0.20.*的特点，以及Hadoop核心理念，分析Hadoop新版本的特征。1、Hadoop 0.20.*的局限性HDFS单NameNode的不足 1）扩展性问题。可以随着数据量进行

2014-06-16 16:04:02 624

转载安装CDH5-CENTOS 6.5搭建本地YUM源

1.配置CDH5的官方源使用cloudera的一键包，或手动下载CDH5的.repo文件rpm -Uvh http://archive.cloudera.com/cdh5/one-click-install/redhat/6/x86_64/cloudera-cdh-5-0.x86_64.rpm或wget http://archive.cloudera.com/cdh

2014-05-30 18:26:27 2688

转载 NoSQL性能测试：MongoDB VS SequoiaDB

【IT168 评测】作为NoSQL的一个重要类型，文档型NoSQL通常被认为是最接近传统关系型数据库的NoSQL。文档型NoSQL的核心是数据嵌套，这种设计可以从某种程度上大大简化传统数据库复杂的关联问题。同时由于摆脱了关系模型里面的强一致性限制，文档型NoSQL还可以做到水平扩张与高可用。相比其他的NoSQL类型，文档型NoSQL的应用范围要广泛的多。　　常见的文档型NoSQL包括Mongo

2014-05-22 15:41:56 2486

转载 Hadoop学习笔记：Apache Hadoop生态系统

Hadoop从诞生至今已经发展成为一个大数据相关的庞大的软件生态系统。这里收集整理了跟Hadoop相关的Apache下的开源项目，以供后续分析研究。Apache HadoopHadoop是一个大数据处理框架，它可用于从单台到数以千计的服务器集群的存储和计算服务。HadoopDistributed File System (HDFS) 提供了能够跨越多台计算机的大数据存储服务，而Ma

2014-05-16 21:31:01 601

转载 Amazon Simple Storage Service (Amazon S3)

Amazon S3 是一种 Internet 上的存储服务。该服务是为降低开发人员进行网络规模级计算的难度而设计的。Amazon S3 提供一个简明的 Web 服务界面，用户可通过它随时在 Web 上的任何位置存储和检索的任意大小的数据。此服务使所有开发人员都能访问 Amazon 用于运行其全球的网站网络的基础设施，该基础设施具备高扩展性、可靠性、安全性、高速度和性价比。该服务旨在最大程度地利

2014-04-23 14:59:32 1060

转载基于Solr的HBase多条件查询测试

http://www.cnblogs.com/chenz/articles/3229997.html背景：某电信项目中采用HBase来存储用户终端明细数据，供前台页面即时查询。HBase无可置疑拥有其优势，但其本身只对rowkey支持毫秒级的快速检索，对于多字段的组合查询却无能为力。针对HBase的多条件查询也有多种方案，但是这些方案要么太复杂，要么效率太低，本文只对基于Sol

2014-04-18 09:24:04 763 1

转载 IBM携手SequoiaDB打造民生银行全新大数据平台

【2014年3月5日，北京】近日，IBM(NYSE:IBM)和巨杉数据库公司(SequoiaDB)宣布与中国民生银行(以下简称：民生银行)展开合作，通过领先的IBM BigInsights大数据解决方案和企业级NoSQL数据库SequoiaDB为民生银行搭建低成本、高性能、高可靠且水平扩张的数据平台，帮助民生银行通过大数据分析应对金融业的大数据挑战，实现深刻的行业洞察。该平台使用IBM BigIn

2014-04-16 12:11:33 2867 1

转载企业级分布式NoSQL数据库 SequoiaDB

SequoiaDB是企业级NoSQL分布式大数据库，主要应用在政府、电信、金融、电力和互联网等拥有海量业务数据的行业。优势：通过非结构化存储与分布式处理，提供了近线性的水平扩张能力，让底层的存储不再成为瓶颈提供了精确到分区级别的高可用性，预防服务器，机房故障以及人为错误，让数据24x7永远在线提供了完善的企业级功能，让用户轻松管理高并发性任务，以及海量数据分析增强的非关系型数据模型

2014-04-16 12:10:02 676

转载 SequoiaDB：比MongoDB领先一到两年打造企业级NoSQL数据库

摘要：广州巨杉数据库是一家专注于新型NoSQL分布式数据库研发的创业公司，创始团队成员都来自于IBM北美实验室，长期从事关系型数据库DB2的研发工作。SequoiaDB是他们的核心软件产品。CSDN.NET 这几年来， NoSQL数据库凭借其易扩展、高性能、高可用、数据模型灵活等特色吸引到了大量新兴互联网公司的青睐，包括国内的淘宝、新浪、京东商城、360、搜狗等都已经在局部尝试No

2014-04-16 11:41:40 740

转载 Nosql 数据管理系统与模型的比较

英文原文：A Comparison Of NoSQL Database Management Systems And Models

2014-04-15 14:42:57 654

转载 NoSQL选型及HBase案例详解

从 NOSQL的类型到常用的产品，我们已经做过很多关于NoSQL的文章，今天我们从国内著名的互联网公司及科研机构的实战谈一下NoSQL数据库。　　NoSQL一定程度上是基于一个很重要的原理—— CAP原理提出来的。传统的SQL数据库（关系型数据库）都具有ACID属性，对一致性要求很高，因此降低了A（availability）和P（partion tolerance）。为了提高系统性能和可扩展

2014-04-10 10:36:12 931

转载对比主流NoSQL数据库特性与应用场景

与关系型数据库RDBMS的大厂商垄断不同，NoSQL在发展之初就可谓是百家争鸣、百花齐放，无论目前如日中天的MongoDB，还是刚刚发布最新版本的Redis;无论是面向文本的CouchDB，还是基于KV的Cassandra，都有着各自的特点和应用场景。而作为传统SQL数据库的良好补充，DBA有必要了解这些主流NoSQL数据库的各自特点。在本文中，我们就将对比一下主流NoSQL数据库，包括了Cass

2014-04-08 14:36:51 602

转载 10个出色的NoSQL数据库

摘要：随着大数据的不断发展，非关系型的数据库现在成了一个极其热门的新领域，非关系数据库产品的发展非常迅速。现今的计算机体系结构在数据存储方面要有庞大的水平扩展性，而NoSQL也正是致力于改变这一现状。目前Google的 BigTable和Amazon 的Dynamo使用的就是NoSQL型数据库，本文介绍了10种出色的NoSQL数据库。虽然NoSQL流行语火起来才短短一年的时间，但是不可

2014-04-08 14:25:59 653

转载 "Big Data"- Reporting Over Hadoop using Hive-Intellicus 5.2

https://www.intellicus.com/product/documents/release_notes/5.2/Hadoop.htm"Big Data"- Reporting Over Hadoop using HiveIntellicus 5.2 forays into the "Big Data" world by providing Reporting over

2014-03-29 10:58:11 956

转载 ZooKeeper是什么

ZooKeeper是什么ZooKeeper是分布式应用中的一种框架。ZooKeeper能干什么哪？我总结了一句话，就是：ZooKeeper是用来保证数据在集群间的事务性一致。我们细细品一下这句话，可以获得以下认识：ZK是集群部署的；集群之间是传递数据的；集群之间传递的数据必须保证在各个节点之间的事务性一致；这是我们获得的认识。下面谈一谈，ZK到底是怎么一回事？简

2014-03-29 10:31:14 604

转载 Cloudera Impala

一、 Cloudera Impala简介Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速，交互式的SQL查询。除了使用相同的存储平台外， Impala和Apache Hive一样也使用了相同的元数据，SQL语法（Hive SQL），ODBC驱动和用户接口（Hue Beeswax），这就很方便的为用户提供了一个相似并且统一的平台

2014-03-29 10:09:41 756

转载 Hadoop 新 MapReduce 框架 Yarn 详解

简介：本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架（Yarn) 原理，优势，运作机制和配置方法等；着重介绍新的 yarn 框架相对于原框架的差异及改进；并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序的方法。读者通过本文中新旧 hadoop map-reduce 框架的对比，更能深刻理解新的 yarn 框架的技术原

2014-03-27 10:55:19 624

转载图解Hadoop生态系统

GigaOM总结的Hadoop生态系统图，基本覆盖了主流的Hadoop相关企业。尽管Hortonworks或Cloudera掌握了大量核心技术并推出了发行版，Oracle、Teradata等传统数据挖掘企业虽然缺少Hadoop核心技术，但却掌握着渠道。【CSDN综合编译】虽然Hortonworks和Cloudera在Apache Hadoop统治力排行榜上分列一、二，但在整理Hadoo

2014-03-25 11:58:43 440

转载 Storm：最火的流式处理框架

诞生　　在2011年Storm开源之前，由于Hadoop的火红，整个业界都在喋喋不休地谈论大数据。Hadoop的高吞吐，海量数据处理的能力使得人们可以方便地处理海量数据。但是，Hadoop的缺点也和它的优点同样鲜明——延迟大，响应缓慢，运维复杂。　　有需求也就有创造，在Hadoop基本奠定了大数据霸主地位的时候，很多的开源项目都是以弥补Hadoop的实时性为目标而被创造出

2014-03-24 11:21:45 544

转载 Spark：一个高效的分布式计算系统

概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习

2014-03-24 11:17:21 550

转载 Impala与Hive的比较

1. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从

2014-03-24 11:04:16 437

转载 Impala入门笔记

问题背景：1. 初步了解Impala的应用2. 重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍写作目的：1. 了解Impala的安装过程2. 初步了解Impala的使用3. 比较Impala与Hive的性能测试适合阅读对象：1. 想了解Impala安装的读者2. 想了解Impala与Hive性能比较的读

2014-03-24 11:03:05 693

转载 hadoop 添加kerberos认证

参考Cloudera官方文档：Configuring Hadoop Security in CDH3一、部署无kerberos认证的Hadoop环境参考另一篇笔记：hadoop集群部署或者按照Cloudera的官方文档：CDH3 Installation Guide.二、环境说明1、主机名之前部署hadoop集群时，没有使

2014-03-21 11:24:55 3927

转载 hbase实战——（1.1 nosql介绍）

什么是nosqlNoSQL(NoSQL = Not Only SQL)，意思是不仅仅是SQL的扩展，一般指的是非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，传统的电信行业动辍就千万甚至上亿的数据，甚至有客户提出需要存储相关的日志数据50年以上，暴露了很多难以克服

2014-03-21 10:20:01 456

转载关于数据仓库 — ODS概念

ODS是一个面向主题的、集成的、可变的、当前的细节数据集合，用于支持企业对于即时性的、操作性的、集成的全体信息的需求。常常被作为数据仓库的过渡，也是数据仓库项目的可选项之一。根据Bill.Inmon的定义，“数据仓库是面向主题的、集成的、稳定的、随时间变化的，主要用于决策支持的数据库系统”ODS是一个面向主题的、集成的、可变的、当前的细节数据集合，用于支持企业对于即时性的、操作性

2014-03-15 20:52:44 645

转载 Apache hadoop当前各个版本说明

当前apapche hadoop有几种不同的版本，首先从官方网站截个图(注意,今天是2013年8月21日)：对照上图进行相应说明:1.2.X - 当前可使用的最稳定的版本2.X.X - 当前的最新版的alpha版本0.23.X - 跟 2.X.X 版本相似但是没有NN和HA.0.22.X - 不包括安全功能0.20.203.X - 老的稳定版本

2014-03-14 11:08:35 1582

转载 Hadoop发行版的比较与选择

Hadoop的发行版除了社区的Apache Hadoop外，Cloudera，Hortonworks，MapR，EMC，IBM，Intel，华为等都提供了自己的商业版本。商业版主要是提供了专业的技术支持，这对一些大型企业尤其重要。每个发行版都有自己的一些特点，本文就各个发行版做简单介绍。 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司，为合作伙伴提供 Hadoo

2014-03-14 11:02:13 564

转载如何选择不同的Hadoop发行版

【TechTarget中国原创】O'Reilly Strata是IT业界最知名也是规模最大的数据管理大会，在本次的Strata大会中，Hadoop成为了其中最热门的话题。EMC公司在本次大会上发布的Pivotal HD（Hadoop发行版）受到了广泛的关注。而目前在Apache Hadoop发行版越来越多的情况下，如何进行区分？如何选择最适合自己的解决方案？数据库技术顾问Curt Mo

2014-03-14 11:01:41 601

转载 PIG LATIN分析报告

Pig Latin分析报告Pig Latin简介对海量数据的按需分析处理需求不断增加，尤其是对于因特网公司，它们的技术革新主要依赖于对每天收集的数据的分析处理能力。要提高如此巨大数据集的存储和分析效率，必须采用高度并行的系统，例如：shared-nothing cluster。并行数据库产品，如：Teradata 提供了一种解决方案，但是这种方案的web规模扩展开销太大，性价比

2014-03-07 12:07:27 683

转载 [Hadoop]Pig与Hive的区别

请允许我很无聊的把飞机和火车拿来做比较，因为2者根本没有深入的可比性，虽然两者都是一种高速的交通工具，但是具体的作用范围是截然不同的，就像Hive和Pig都是Hadoop中的项目，并且Hive和pig有很多共同点，但Hive还似乎有点数据库的影子，而Pig基本就是一个对MapReduce实现的工具(脚本)。两者都拥有自己的表达语言，其目的是将MapReduce的实现进行简化，并且读写操作数据最终都

2014-03-07 11:50:02 702

原创 OBIEE访问hive数据环境搭建

OBIEE访问hive数据的环境搭建 OBIEE 11.1.1.7.x支持hive数据源，本人想测试下hive数据和OBIEE的互通性，以下是最近个人搭建测试环境的流程和遇到的一些问题。安装环境：1、 OS环境：Oracle VMVirtualBox 4.3.8，Oracle Linux Server release 5.9。2、软件环境（按安装先后顺序列举）：a

2014-03-06 14:22:25 4687

转载 Hive部署

环境：Hadoop,hbase都已经装过了，只需要装个mysql就可以装hive了mysql和hive不是必须要装到Hadoop master或datanode节点的只要在你部署的那台机器上有Hadoop并且这个hadoop的配置能够正确的指向hadoop的master的地址mysql:可以下载个rpm包装上去就可以了，然后可以通过MySQL-Front连上去创建一个数据库，并

2014-03-05 10:42:23 613

转载 hive 三种启动方式及用途，关注通过jdbc连接的启动

1， hive 命令行模式，直接输入/hive/bin/hive的执行程序，或者输入 hive –service cli 用于linux平台命令行查询，查询语句基本跟mysql查询语句类似 2， hive web界面的启动方式，hive –service hwi 用于通过浏览器来访问hive，感觉没多大用途3， hive 远程服务 (

2014-03-05 10:41:17 1029

转载 Virtualbox运行报cannot access the kernel driver的解决分享修改删除

这几天在升级Virtualbox的时候出现以下错误：Cannot access the kernel driver! Make sure the kernel module has been loaded successfully. Failed to open a session for the virtual machine Masonux.Virtual machine 'M

2014-03-04 10:30:14 3912 1

空空如也

空空如也