自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 增量实现

###参数source ExitCodeCheck.shqueueName=$1;hive_db_name_360=$2;stat_date=$3;end_date=$4;#### 新理赔 新增 1hive -v -e "use ${hive_db_name_360};set mapred.job.queue.name=queue_gbd_ide_02;se

2015-09-15 14:53:29 1078

原创 hive优化四

最近开发中遇到几种应用,刚好使用MAPJOIN来解决实际的问题。应用共同点如下:1: 有一个极小的表行2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积,数据异常增大,速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理,MAPJION会把小表全部读

2015-08-07 18:07:15 653

原创 hive优化二

1、提前过滤数据,减少中间数据依赖:尽量尽早的过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的数据。如下,改写后的写法将会大大减少join的数据量select ... from Ajoin Bon A.key = B.keywhere A.userid>10     and B.userid       and A.dt='20120417

2015-08-06 16:52:05 537

转载 hive优化三

第一部分:Hadoop 计算框架的特性什么是数据倾斜•由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点Hadoop框架的特性•不怕数据大,怕数据倾斜•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的

2015-08-06 16:44:34 395

转载 hive优化一

order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order by 和数据库中的

2015-08-05 17:25:23 444

转载 Hive优化总结

Hive优化总结---by 食人花   优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如

2015-01-20 23:43:14 395

转载 Sqoop工具使用 (二)--把HDFS中的数据导入到Oracle

sqoop export工具把HDFS中的数据导入到rdbms系统中,实现方式有三种:(1)insert mode:生成insert语句然后执行,这是默认的方式(2)update mode:生成update语句,替换数据库中的记录(3)call mode:调用存储过程处理每一条记录:Common argumentsArgument Description

2014-09-16 18:09:28 893

转载 Sqoop工具使用(一)--从oracle导入数据到hive

sqoop import  -D oracle.sessionTimeZone=CST --connect jdbc:oracle:thin:@192.168.78.6:1521:hexel \--username TRX --table SQOOP -m 1 --password trx    --warehouse-dir /xtld/data/gj/SQOOP \--hive-imp

2014-09-16 17:59:18 1717

转载 数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的

2014-09-16 07:33:35 432

原创 用shell写的数据迁移的例子

#!/usr/bin/kshworkdir=`pwd`refdir=`dirname $workdir`datadir="$refdir/data"mkdir -p $datadiruser1_par=$workdir/user1.paruser2_par=$workdir/user2.partouch $user1_partouch $user2_paruse

2014-09-05 00:17:10 1310

原创 常用SQL

永久licensesAJZU-WOPP-VWM2-H98K-XSU6-PP34-O4OZ-CPPN-Precover database using backup controlfile allow 1 corruption;hwclock --set --date="3/29/2011 16:45:05"dbms_workload_repository.CREA

2014-09-05 00:07:13 821

原创 shell 多进程机制

#!/usr/bin/kshcurtime=`date "+%Y-%m-%d_%H:%M:%S"`Workdir=`pwd`cfgfile="${Workdir}/cfg/baseinf.cfg"backuplogfile="${Workdir}/log/backup.log"flagdir="${Workdir}/flag"####################

2014-09-05 00:05:33 477

转载 Oracle SQL计划

深入读解Oracle SQL计划【概要】这里所谓SQL计划就是大家平时所说的执行计划。从10g开始,Oracle倾向于把执行计划称为SQL计划,到了11g,这个倾向就更加明显了,本文也顺应这个潮流,使用SQL计划这个概念,也简称计划。大家在SQL调优的过程中,不可避免的要跟SQL计划打交道,或多或少会遇到一些问题:ü  为什么explain plan得到的计划跟实际的不同呢

2014-09-04 23:59:02 881

原创 oracle字符集

经常有同事咨询oracle数据库字符集相关的问题,如在不同数据库做数据迁移、同其它系统交换数据等,常常因为字符集不同而导致迁移失败或数据库内数据变成乱码。现在我将oracle字符集相关的一些知识做个简单总结,希望对大家今后的工作有所帮助。  一、什么是oracle字符集  Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家

2014-09-04 23:51:45 330

转载 老鸟的Python入门教程

重要说明这不是给编程新手准备的教程,如果您入行编程不久,或者还没有使用过1到2门编程语言,请移步!这是有一定编程经验的人准备的.最好是熟知Java或C,懂得命令行,Shell等.总之,这是面向老鸟的,让老鸟快速上手Python教程.为什么总结这样的一个教程我虽不是老鸟,但已熟悉Java,C/C++, Shell和Perl,且对常见的数据结构和算法等都了解.最近因项目需要,要做一个小工具

2014-09-04 23:44:42 774

原创 hadoop学习工作总结(六)之生成hive的一个存储过程

declare  -- Local variables here  i integer;  v_max_i number;  v_where varchar2(4000);  v_relation_column varchar2(30) := 'party_id';  v_data_type varchar2(30);  begin for r in (SELE

2014-09-02 16:54:35 3531 1

原创 hadoop学习工作总结(五)之从txt文件导数到hive

--建维表(TRA_PAC_HOW_RELATION_INFOS)drop table TMP_CX_VEHICLE_LICENCE_CODE;CREATE TABLE TMP_CX_VEHICLE_LICENCE_CODE(  province       STRING  comment "省份",  shortened_form STRING  comment "简称",

2014-09-02 16:30:23 891

原创 hadoop学习工作总结(四)之数据同步

数据同步到hive:

2014-09-02 15:53:13 536

原创 hadoop学习工作总结(三)之数据优化

数据优化:1、小表放在前面,大表放在后面。因为会把前面的表读进内存再进行关联。2、把分区的条件在on关系后面,不要放在where后面。因为放where后面会把所有分区关联后再按分区过滤。3、不要使用count(distinct()),使用先分组,后count()。4、数据倾斜 mapjoin

2014-09-02 15:11:14 519

原创 hadoop学习工作总结(二)之hive流程

coordinator.xml  : frequency="${coord:months(1)}" start="${job_start}" end="${job_end}" timezone="GMT+08:00" xmlns="uri:oozie:coordinator:0.2">      2  1       initial-instance="${

2014-09-02 14:45:46 636

转载 hive sql遇到的问题

某个字段条件过多,查询条件失效select * from login where dt='20130101' and (ver !='3.1' or ver !='3.2' or ver != '4.0' or ver != '5.2');备注:感谢 杨庆荣的指导,这里笔误,其实修改为如下的sql,功能可以实现,该bug纯属作者的错误:select * from log

2014-08-29 10:12:48 613

原创 awk实现group by 功能

[app_usr@ haha]$ lsBOSSNM_0_3032_9069_50_H1_20120315_020_00000011_000.json  BOSSNM_0_3032_9069_50_H1_20120315_020_00000015_000.jsonBOSSNM_0_3032_9069_50_H1_20120315_020_00000012_000.json  BOSSNM_0

2014-08-29 10:08:13 9770

转载 hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b

2014-08-29 10:06:14 378

转载 linux\uinux

简介用简单的话来定义tcpdump,就是:dump the traffic on a network,根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来帮助你去掉无用的信息。 实用命令实例默认启动tc

2014-08-29 09:59:02 1994

转载 hive大数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的

2014-08-29 09:41:23 334

转载 Hadoop集群应用于大数据分析优势和挑战

大数据分析在过去几年里非常流行。即便如此,很多组织发现,现有的数据挖掘和分析技术还是不能胜任大数据的处理任务。对于这个问题,一个可能的解决方案就是搭建Hadoop集群,但它并不适合所有情况。让我们了解一下使用Hadoop集群的优缺点。  Hadoop集群是什么?  Hadoop集群是一种专门为存储和分析海量非结构化数据而设计的特定类型的集群。本质上,它是一种计算集群,即将数据分析的

2014-08-27 21:31:16 917

原创 hadoop学习工作总结(一)

hadoop的优点:    高可靠性:hadoop按位存储    高扩展性:hadoop 数据是通过文件系统分布式存储的。    高效性:能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因此处理速度非常快。    高容错性:能自动保存数据的多个副本,并且能够自动将失败的任务重橷分配。hadoop核心:HDFS、MapReduce、HBaseHDFS:当硬件出

2014-08-27 20:57:09 749

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除