randee_luo-CSDN博客

转载 Hadoop中map数的计算

Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是：goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.bl

2014-01-23 11:42:26 650

我们的hive版本升迁经历了0.7.1 -> 0.8.1 -> 0.9.0，并且线上shark所依赖的hive版本也停留在0.9.0上，在这些版本上有我们自己的bug fix patch和feature enhancement。但是Hive的版本升级很快，新版本中修复了大量bug，新增了很多功能，非常令人兴奋，其中包括对未来hadoop升级为YARN的支持。所以我们准备将hive版本升级为0.11

2014-01-08 15:05:10 715

原创 hive的overwrite

这几天有个朋友问我 hive的overwrite是怎么执行重写，假如重写执行到一半报错，会不会导致丢失数据呢？一开始没有反应过来，后来想想，其实这个可以从 explain 上看到的。hive (temp)> explain insert overwrite table ods.ods_memberext_dd select * from temp.lhc_memberext_2013092

2014-01-08 11:52:09 3681

转载 hive优化

hive.optimize.cp=true：列裁剪 hive.optimize.prunner：分区裁剪 hive.limit.optimize.enable=true：优化LIMIT n语句 hive.limit.row.max.size=1000000： hive.limit.optimize.limit.file=10：最大文件数1. 本地模式(小任务)：需

2013-12-26 12:00:35 529

转载 Hive – Group By 的实现

准备数据hive> SELECT * FROM logs;a 苹果 5a 橙子 3a 苹果 2b 烧鸡 1 hive> SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;a 10b 1计算过程默认设置了hive.map.aggr=true，所以会在mapper端先group by一次，最后再把结

2013-12-25 14:24:55 1144

原创 hive中的order by+sort by+distribute by+cluster by

order by 它会对输出数据做全局排序，因此在order by 过程中会将所有数据放入一个reduce(如果是多个reduce的话则不能保证order by 后数据是有序的)，当数据量大时，一个reduce的处理压力就成了问题。当 set hive.mapred.mode=nonstrict (默认值)时，hive会正常处理order by 。当 set hive.mapred.

2013-12-25 11:39:32 1116

原创 left outer join 的简单总结

表：lhc01id uid3 12 11 14 11 23 2表：lhc02id uid1 24 12 1一，基本left outer joinselect * from lhc01 a left outer

2013-12-10 15:27:57 4568

转载 Mongodb用户和认证权限总结

mongodb数据库db2shellexceptionuser 开启MongoDB服务时不添加任何参数时,默认是没有权限验证的,登录的用户可以对数据库任意操作而且可以远程访问数据库！在刚安装完毕的时候MongoDB都默认有一个admin数据库,此时admin数据库是空的,没有记录权限相关的信息！当admin.system.users一个用户都没有时，即使mongod启动时添加了--a

2013-12-05 16:50:01 705

原创解决mongodb启动时报locale错误以及linux终端或hive CLI无法输入中文的方法

在安装完mongodb后，进入$MONGODB_HOME/bin 执行mongod启动时报exception in initAndListen: 14043 clear tmp files caught exception exception: locale::facet::_S_create_c_locale name not valid, terminating从error信息可

2013-12-02 15:43:13 1538

原创 SQOOP 解决import时字段为NULL值的情况

想必有些朋友刚开始接触sqoop时，在从mysql(或者别的RDBMS)导入数据到hdfs后会发现原来在mysql中字段值明明是NULL, 为什么到hive查询后 where field is null 会没有结果呢，然后通过检查一看居然NULL值都变成了字段串'null'。其实你在导入的时候加上以下两个参数就可以解决了，--null-string '\\N' --null-non

2013-11-21 10:38:10 8441 2

原创 mongoDB简单语句

自己整理了一些mongoDB日常会用到的语句，sqlmongoselect * from lhcdb.lhc.find()select * from lhc limit 1db.lhc.findOne()db.lhc.find().limit(1)select id,name from lhcdb.lhc.find({

2013-11-08 16:02:26 725

原创 mongoDB的导出工具mongoexport

据了解当前mongoDB支持将数据导成两种形式，一是json 二是csv可以通过./mongoexport --help 来查看参数介绍-h [ --host ] arg 连接的ip地址--port arg 端口号-u [ --username ] arg 用户名-p [ --password ] arg 密码-d [ --db

2013-10-29 16:02:24 1817

原创 java连接mongoDB

如果没有jar驱动包的先到以下连接下载驱动包。http://download.csdn.net/detail/jxlhc09/6470809import java.net.UnknownHostException;import com.mongodb.DB;import com.mongodb.DBCursor;import com.mongodb.Mongo;publ

2013-10-29 15:43:56 751

原创数据库基础知识

最近在回想之前面试的时候，有些BT的面试官会问到自己一些比较基础的知识，比如什么是数据库，有几种范式==。相信现在有好多人都把一些比较重要的基础知识都忘了吧，请问，数据库系统中事务需遵守什么原则==。像这个问我记得当初回答时有回到到ACID 但是每个大写字母代表什么，还真心很难记住，这几天内心深处又在回忆了下，发现还是把它们给忘了，哎！！数据库范式有好多种(第一范式，二范

2013-10-28 17:52:38 713

原创 MongoDB的安装

公司新产品用mongoDB作为业务数据库，我勒个去，我还得将mongoDB数据导入到我的hdfs，郁闷呐！想着先研究研究mongoDB,今天刚安装上，安装还是挺简单的！1，从http://www.mongodb.org/downloads下载相应的安装版本 mongodb-linux-x86_64-2.4.7.tgz2，解压安装包，tar -xvf mongodb-linux-x86_

2013-10-25 17:53:48 557

原创数据模型

数据模型（Data Model）是数据特征的抽象，是数据库管理的教学形式框架。数据库系统中用以提供信息表示和操作手段的形式构架 [引用于百度]。由以下三部分组成：1，数据结构；2，数据操作；3，数据约束。在平时工作中，数据模型可以划分为三个层次：1，概念模型面向于现实世界或者说面向于业务的。表达的是各业务主体间的关系。2，逻辑模型将现实世界的东西转化为数

2013-10-23 18:06:12 658

原创升级hive-0.11后报java.lang.InstantiationException: org.antlr.runtime.CommonToke

今天早上一到公司就发现有个数据有问题，以为是原始数据出问题了，后来查看作业日志，发现以下情况java.lang.InstantiationException: org.antlr.runtime.CommonTokenContinuing ...java.lang.RuntimeException: failed to evaluate: =Class.new();Continui

2013-10-22 15:02:33 2152 7

原创解决升级hive-0.11.0后报WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no long

在将hive升级至0.11.0版本后，每次重新进入hive都会报出一WARN，很似烦人，内容如下：WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no longer has any effect. Make sure to provide a valid value for hive.met

2013-10-21 11:54:50 3535

原创 hive的升级(0.8.0到0.11.0)

hive-0.11.0出来后，得知有将row_number进行封装，对于我这等不懂java的人士来说，是莫大的幸福啊！毫不犹豫的将0.8.0抛弃了！下面是具体升级步骤：1，关闭当前hive正在执行的进程，service hive-server以及相应的客户端(网上有些作者说要做的，其实这一步我倒没做，也没出现啥状况，为了责任，建议大家还是操作一下)。2，不管做哪方面的升级，首先肯定是将

2013-10-18 17:22:33 706

原创处理hive中;分号字符

分号是sql的结束符，在hql中亦如此，但是hive对分号的识别没有那么智能，如下：select concat(';','aa') from lhc limit 1;FAILED: Parse Error: line 1:13 cannot recognize input near '' '' '' in function specification可见，hql只要遇见分号则认识是

2013-10-16 17:54:12 4510

原创 MapReduce的执行过程介绍

对于MapReduce这张图是相当经典的，在网上看到很多谈到MapReduce的执行过程都会用到这张图片，下面我也讲讲自己对它的基础认识。1，用户向jobclient提交MapReduce job。2，jobclient向Jobtracker申请一个新的job id（通过调用jobtracker的getnewjobid()获得）。3，将运行job所需的资源(Jar包，配置文件与计算所得

2013-10-15 16:42:11 1130

转载 Hive RCFile的高效存储结构

本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据

2013-10-14 18:10:58 858

转载 hive数据倾斜总结

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2013-10-11 14:36:41 545

转载星型模型和雪花型模型比较

一、概述在多维分析的商业智能解决方案中，根据事实表和维度表的关系，又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候，就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“ 事实表”上时，整个图解就像星星一样，故将该模型称为星型模型，如图 1 。星型架构是一种非正规化的结构，多维数据集的每一个维度都直接与事实表相连接，不存在渐变维度，

2013-10-10 14:55:27 616

原创 Sqoop的安装方法

sqoop是一个用来将hadoop和RDBMS(如mysql,oracle,postgres等)之间数据相互导入导出的工具。安装与使用都相当简便。当然在你安装之前首先得确保你已经安装了hadoop(这个是必须的)、hive、hbase。安装如下:1，下载相应的sqoop版本。下载地址：http://mirrors.cnnic.cn/apache/sqoop/2，将下载的文件

2013-10-09 17:56:32 623

原创 mailx的安装方法

如果希望通过在linux下发送邮件，可以选用mailx，安装与操作都相当简单。下面就讲讲mailx安装与使用方法安装：1，下载mailx-12.4.tar.bz22，解压 tar –xvf mailx-12.4.tar.bz23，进入解压后的目录 mailx-12.44，使用make方式进行安装 make5，make install UCBINSTALL=/us

2013-10-08 16:29:34 4062

原创 hadoop配置fair-scheduler的方法

hadoop有以下几种调度方法1，FIFO(先进先出调度器)这种是hadoop默认的调度2，capacity-scheduler(计算能力调度器)3，fair-scheduler(公平调度器)。以下是fair-scheduler的配置方法。1. 将HADOOP_HOME/contrib/fairscheduler的jar包考入到HADOOP_HOME/lib下例如：cp $

2013-09-30 16:41:21 1216 1

原创 Eclipse连接hadoop的配置方法

1，将hadoop-1.0.3-eclipse-plugin.jar(这里一定要跟你的hadoop版本支持的一致) 文件放入liunx 下的hadoop目录及win下的eclipse的plugins目录下，然后打开eclipse 在windows->open perspective 下可看到Map/Reduce 点击后可在窗口下方看到Map/Reduce Locations，右键“New Ha

2013-09-30 14:21:40 1229

原创重置root密码

Linux下重置root密码：1，在启动linux时按”e”键2，进入选项后，将选项选到” kernel”带头的一串选项中，按”e”键进入编辑3，在出现的可编辑内容中的ro前加上”single”表是单用户进入。4，按回车键返回选项区，然后继续将光标放入”kernel”内容上按”b”键进入编辑5，当出现命令行以”sh -”带头时，即可在其后输入”passwd root”

2013-09-29 14:15:03 555

原创元数据的类别

元数据(Metadata)：是关于数据的数据，即对数据的描述。ETL过程的元数据模型主要包括几方面：1，数据源的元数据：如果是文本，则应包括该文本的格式表述信息如果是数据库，则应包含数据库信息、数据库模式、数据的表结构、数据字段的属性、数据的完整性约束等2，数据仓库的元数据：为数据抽取任务配置管理提供信息，包括数据仓库信息，数据仓库模式，数据的表结构，数据的字段属性，数据的完整

2013-09-29 13:36:43 1555

原创数据仓库的两种建模

1,自下而上(适合先建立数据集市)又称为总线架构(kimball) 按用户的需求通过螺旋发展的过程来设计数据仓库，第一步是根据特定业务过程按照维度模型建立数据集市，然后通过一系列维度相同的数据集市递增地构建成数据仓库。不同数据集市之间通过创建一致性维度来集成，每次增加数据集市都必需整合一致性维度，并将整合好的一致性维度同步更新到所有的数据集市。在这种方法中，可以把数据集市理解为整

2013-09-27 23:33:28 1344 1

jxlhc09的专栏