Chuck_lee-CSDN博客

原创 Ubuntu14.04安装JDK与配置环境变量

先从Oracle官网下载JDK。先选择同意按钮，然后根据自己的系统下载相应版本。我的系统是Ubuntu14.04 64位的，所以我下载创建一个目录/usr/lib/jvm以便于把下载解压后的包放到这个目录下。解压并把解压后的jdk1.8.0_25文件夹放到/usr/lib/jvm目录中。注意：我现在下载的安装包

2016-06-14 16:47:04 226

原创 ubuntu 下vim安装、配置和插件的添加使用

超强vim配置文件运行截图下vim安装、配置和插件的添加使用" style="margin:0px; padding:0px; border:0px; list-style:none; max-width:100%">简易安装方法：打开终端，执行下面的命令就自动安装好了：wget https://raw.github.com/ma6174/v

2016-06-14 16:46:28 2561

原创 secureCRT连不上虚拟机上的ubuntu

前些日子我的secureCRT一直连不上虚拟机上的ubuntu，虽然两边的IP都能ping通！同学也来出谋划策,但是……，还没能解决！（都怪我当初连ssh都没装就在那瞎弄！）但还是要感谢他们的帮忙。我后来在百度上找到了方法，给大家分享一下。作者：chepwavege(CSDN网名)如何使用SecureCRT连接ubuntu ,远程主机无响应、乱码、无防火墙错。。等等错误解决

2016-06-14 16:44:47 817

从1990年电子商务诞生到2014年的全民电商时代，电子商务作为新兴行业快速发展至成熟稳定期。纵观将近30年的中国电子商务发展历程，我们可以发现，从行业起步到快速发展这一段时间周期内，电子商务大致每隔3年左右就会出现一个阶段的“流行趋势”，这可以看做是行业高速发展的一个标志。自2000年开始，电子商务稳步前进进入到行业发展的成熟期，这与电子商务相关的物流行业的发展以及计算机技术等配套行业的高速发展

2015-04-09 11:29:48 1462

原创 python下的tab快捷键设置

将下面的进行保存为tab.py,并将此python保存到/usr/lib64/python2.7/目录下，在交互模式下，每次调用时需要 import tabimport sysimport readlineimport rlcompleterimport atexitimport os# tab completion readline.parse_and_bind(

2015-02-08 09:46:22 2056 1

原创 A/B 向上取整的方法

1. 问题　　A,B都是整数并且 A>1, B>1　　求 ┌ A/B ┐ 即 A/B 的上取整。　　当 A/B 整除，往上取整返回值为 A/B。　　当不整除，返回值是 int(A/B) + 1　　这个算法的一个应用：如果你有一个动态增长的缓冲区，增长的步长是 B,　　某一次缓冲区申请的大小是 A，这个时候，就可以用这个算法，计算出缓冲区的一个合

2015-02-06 15:02:15 2022

原创 CentOS下为python命令行添加Tab键自动补全功能

记得我们在刚学linux的时候，老师就告诉我们，在敲命令的时候要敲一下Tab键自动补全。如今这个动作已经成为习惯，相信从事linux运维的筒子们都是如此。　　习惯性的敲一下Tab键好处挺多的: 节省时间，提高效率。敲几个字母就能出来。对于记不住的命令，我们只需敲头几个字母，补全一下就知道我们需要的命令是什么。目录路径补全，较短的路径手工敲还行，太长的路径要是没有补全功能真的是会累死人

2015-02-05 23:34:45 1670

原创利用HCatalog管理元数据

在HDFS和HBase之间，Hadoop提供了许多保存数据的方法，使得数据可以被多个应用程序访问。但将数据集中存储并提供给多个应用程序访问，这样做产生了一系列新的挑战，包括以下几点：如何分享数据，才能够使数据以用户想要的任何形式来保存和处理？如何能够将不同的Hadoop应用程序和其他系统集成？访问数据的常见方法之一是通过表抽象，该方法通常用于访问关系型数据库，并且为许多开发者所熟知(和

2015-02-04 13:07:09 1663

原创 RCFile文件格式

在当前的基于Hadoop系统的数据仓库中，数据存储格式是影响数据仓库性能的一个重要因素。Facebook于是提出了集行存储和列存储的优点于一身的RCFile文件存储格式，在Facebook公司内部，其数据仓库的文件存储格式都是RCFile; 我们现在正在进入一个大数据时代，何为“大数据”？它不仅仅就是指海量的数据，也包括如何高效的存储、管理和使用这写数据。在Hadoop运行环境中

2015-01-28 11:36:22 1689

原创 hive 配置参数详细说明

hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在GateWay运行） true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true，当输入文件大小小于此阈值时可以自动在本地模式运行，默

2015-01-15 17:07:39 707

转载高压缩空间占用的 Hyper LogLog 算法

This is a guest post by Matt Abrams (@abramsm), from Clearspring, discussing how they are able to accurately estimate the cardinality of sets with billions of distinct elements using surprisingly sm

2015-01-08 09:23:46 1888

原创 hive数据类型-摘录至HIVE WIKI

列类型Hive支持的数据类型如下:原生类型:TINYINTSMALLINTINTBIGINTBOOLEANFLOATDOUBLESTRINGBINARY (Hive 0.8.0以上才可用)TIMESTAMP (Hive 0.8.0以上才可用)复合类型:arrays: ARRAYmaps: MAPstructs: STRUCTunion: UNIONTYPE时间戳

2014-12-30 17:01:51 588

原创 HIVE Explain语法

Hive提供EXPLAIN命令，显示查询的执行计划。语法如下：EXPLAIN [EXTENDED] queryEXPLAIN语句使用EXTENDED，提供执行计划关于操作的额外的信息。这是典型的物理信息，如文件名。Hive查询被转换成序列（这是一个有向无环图）阶段。这些阶段可能是mapper/reducer阶段，或者做metastore或文件系统的操作，如移动和重命名的阶段。

2014-12-30 09:49:48 952

转载 Stinger Initiative：让Hive提速100倍

摘要：在Hadoop生态圈，没有一家公司有比Hortonworks有更高的统治力，在Apache Hadoop社区，他占据最多的PMC和committer。他和Cloudera是社区利益最主要的争夺者。Stinger Initiative是一个彻底提升Hive效率的工具，与此同时，Hortonworks还在Apache孵化着多个项目，进一步扩大领地。自从2007年Facebook提出A

2014-12-26 17:09:22 1169

原创 Hadoop深入浅出之HDFS分析第一讲:基本概念

第一讲：基本概念1.1数据块（block）默认基本存储单位块大小为：64M。JDW采用128M作为块大小;和普通文件系统相同的是，HDFS中的文件是被分成64M一块进行数据块存储的。不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不会占用整个数据块的存储空间.blk_保存的是HDFS的数据块，其中保存了具体的二进制数据。blk_.meta保存的是数据

2014-12-24 14:51:23 780

原创数据库为什么要分库分表及实现策略

1 基本思想之什么是分库分表？从字面上简单理解，就是把原本存储于一个库的数据分块存储到多个库上，把原本存储于一个表的数据分块存储到多个表上。2 基本思想之为什么要分库分表？数据库中的数据量不一定是可控的，在未进行分库分表的情况下，随着时间和业务的发展，库中的表会越来越多，表中的数据量也会越来越大，相应地，数据操作，增删改查的开销也会越来越大；另外，由于无法进行分布式式部署，而一台服务器的资源（

2014-12-22 09:11:22 1855

原创别老扯什么Hadoop了，你的数据根本不够大

“你有多少大数据和Hadoop的经验？”他们问我。我一直在用Hadoop，但很少处理几TB以上的任务。我基本上只是一个大数据新手——知道概念，写过代码，但是没有大规模经验。接下来他们会问：“你能用Hadoop做简单的group by和sum操作吗？”我当然会，但我会说需要看看具体文件格式。他们给我一个U盘，里面有所有的数据，600MB，对，他们所有的数据。不知道为什么，

2014-12-04 13:41:39 679

原创 linux shell脚本学习xargs命令使用详解

xargs是一条Unix和类Unix操作系统的常用命令。它的作用是将参数列表转换成小块分段传递给其他命令，以避免参数列表过长的问题例如，下面的命令：复制代码代码如下:rm `find /path -type f`如果path目录下文件过多就会因为“参数列表过长”而报错无法执行。但改用xargs以后，问题即获解决

2014-11-20 09:11:23 663

原创 Shell+Linux命令实现日志分析

这篇文章主要介绍了Shell+Linux命令实现日志分析,本文给出了结合grep命令、awk命令等实现了几个常用的日志分析统计长命令,需要的朋友可以参考下一、列出当天访问次数最多的IP命令：复制代码代码如下:cut -d- -f 1 /usr/local/apache2/logs/access_log |uniq -c

2014-11-20 09:09:09 841

原创 linux BASH编程学习笔记

1. Linux 脚本编写基础 1.1 语法基本介绍 1.1.1 开头程序必须以下面的行开始（必须方在文件的第一行）： #!/bin/sh 符号#!用来告诉系统它后面的参数是用来执行该文件的程序。在这个例子中我们使用/bin/sh来执行程序。当编辑好脚本时，如果要执行该脚本，还必须使其可执行。要使脚本可执行：编译 chmod

2014-11-17 10:56:27 558

原创 HIVE优化总结第二弹

一、join优化Join查找操作的基本原则：应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join，且所有参与join的表中其参与join的key都相同，则会将所有的join合并到一个ma

2014-11-11 23:28:55 635

原创 Hadoop Streaming 常见错误（不断更新ing)

1、streaming默认的情况下，mapper和reducer的返回值不是0，被认为异常任务，将被再次执行，默认尝试4次都不是0，整个job都将失败[plain] view plaincopyjava.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess fail

2014-11-11 22:48:59 2420 1

原创 Hive的multi-distinct可能带来性能恶化之案例优化

目前hive的版本支持multi-distinct的特性，这个在用起来比较方便，但是在此特性下面无法开启防数据倾斜的开关(set hive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化，如日志中常常统计pv，Uv，独立ip数，独立session

2014-11-10 13:45:15 800

转载 HIVE优化总结

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时

2014-11-05 16:49:32 555

转载关于拉链表

(一)概念拉链表是针对数据仓库设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。在历史表中对客户的一生的记录可能就这样几条记录，避免了按每一天记录客户状态造成的海量存储的问题：（NAME）人名（START-DATE）开始日期（END-DT）结束日期（STAT）状态

2014-11-03 15:24:06 1337

转载 Hive 中内部表与外部表的区别与创建方法

先来说下Hive中内部表与外部表的区别： Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。需要注意的是传统数据库对表数据验证是 schema on wr

2014-10-29 08:51:28 644

转载 Hadoop管理员的十个最佳实践

接触Hadoop有两年的时间了，期间遇到很多的问题，既有经典的NameNode和JobTracker内存溢出故障，也有HDFS存储小文件问题，既有任务调度问题，也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷（短板），有些则是使用的不当。在解决问题的过程中，有时需要翻源码，有时会向同事、网友请教，遇到复杂问题则会通过mail list向全球各地Hadoop使用者,

2014-09-18 09:17:05 631

转载 HadoopDoctor—TDW MapReduce诊断系统

HadoopDoctor—TDW MapReduce诊断系统摘要 : TDW是基于Hadoop生态圈研发的大数据处理平台，MapReduce计算引擎在TDW平台中承担了所有的离线数据计算，是TDW最重要的底层支撑平台之一。在TDW平台中，除了MR程序会生成MapReduce作业外，被广泛应用的Hive、tPig等 ...前言TDW是基于Hadoop生态圈研发的大

2014-08-16 18:19:24 895

转载分享个百度员工离职总结：如何做个好员工（受益匪浅）

2014年7月4日，我从百度离职了。　　这是第一次，我不是因为和老板闹翻而离职;　　这是第一次，我带着晋升的喜悦而离职;　　这是第一次，我带着满满的收获而离职。　　我曾经认为，我永远不会成为一个好员工，因为我太独、太挑剔、不喜欢听话的好孩子、而且讨厌一切想要改变我的人。但是三年过去，我改变了不少，我必须承认，所谓“进步”的过程，就是被认可的过程，也是被“驯化”的过程

2014-08-15 18:02:23 857

原创 HIVE优化提示-如何写好HQL

一、 Hive join优化1. 尽量将小表放在join的左边，我们这边使用的hive-0.12.0,所以是自动转化的，既把小表自动装入内存，执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000L）参数控制（默认是25M），如果表文件大小在25M左右，可

2014-08-15 17:24:07 2076

原创准确度量持续改进—网站分析驱动目标达成

1 为什么要对网站进行分析？首先是第一部分，我们为什么要对网站进行分析？网站分析并不是所有网站的标准配置，很多网站都没有做这个工作，他们也运营的很好。那么我们为什么需要网站分析呢？在回答这些问题之前，我先要反问一个问题，你的网站为什么存在？如果你不了解网站存在的目的，那么网站分析对于你来说也就没有任何的价值。毕竟网站分析不是街头算命，可以未卜先知。我们需要明确的网站目标！通常情况下，每

2014-08-14 21:49:49 664

原创 hadoop源码[0]-初衷和各种资源

初衷一直业余的维护着一个hadoop应用程序,一直想看点hadoop源码,主要依据这篇博文(http://caibinbupt.iteye.com/blog/262412)的线索看下去,如果中途有自己感兴趣的就先散开看看.原则以看代码为主,看别人的文章为辅,但是也不会很仔细的阅读每行代码,知道那些代码能干些什么事,以后遇到问题回来仔细查看,同时将自己看到过的资料记录下来,基本不会自

2014-08-11 15:49:53 735

原创 Hadoop源码分析[5]-counter的使用和默认counter的含义

在map和reduce的过程中,可以通过设置Context.setStatus()来随时设置状态,这个底层也是使用reporter来设置的1.在0.20.x版本中使用counter很简单,直接定义即可，如无此counter，hadoop会自动添加此counter.Counter ct = context.getCounter("INPUT_WORDS", "count");

2014-08-11 15:46:14 872

原创基于计算机资源分析hadoop的默认counter

前言由于项目中，需要统计每个业务组使用的计算机资源，如cpu，内存，io读写，网络流量。所以需要阅读源码查看hadoop的默认counter。MapReduce Counter可以观察MapReduce job运行期的一些细节数据，Counter有"组group"的概念，用于表示逻辑上相同范围的所有数值。 cpu 如何衡量mapreduce的任务的计算量呢，如果按照任务的运行时

2014-08-11 15:39:47 706

原创 MapReduce 计数器简介

在许多情况下，一个用户需要了解待分析的数据，尽管这并非所要执行的分析任务的核心内容。以统计数据集中无效记录数目的任务为例，如果发现无效记录的比例相当高，那么就需要认真思考为何存在如此多无效记录。是所采用的检测程序存在缺陷，还是数据集质量确实很低，包含大量无效记录？如果确定是数据集的质量问题，则可能需要扩大数据集的规模，以增大有效记录的比例，从而进行有意义的分析。计数器是一种收集

2014-08-11 15:23:57 738

原创京东手Q一起玩真个性

京东与手机QQ的合作吸取了不少微信上的经验，做得更有针对性，也更个性化，尤其是针对手机QQ上最活跃的三四线城市的年轻人。这次合作使得京东能够通过移动互联网覆盖更广泛的人群，让他们加入移动购物的大军8月8日，老冀睡醒一觉之后打开手机QQ，本来想到“动态”中去看看好朋友最近都在干什么，却发现“游戏”下面竟然多了个“购物”频道。点击打开之后是“超划算”、“耍大牌”、“

2014-08-11 10:34:56 1582

原创刘强东，揭开京东未来盈利迷局

最近刘强东在内部培训时口出豪言，“赚取千亿利润才叫赚钱，一年三四十个亿也能叫赚钱？”由此引发业界热议，也有一些人质疑“京东还在烧钱和亏损，就喊出要盈利千亿，是吹牛”。一鲨想说的是，如果你深入分析一下京东的成长之路以及刘强东的未来谋划，你就会发现那些所谓的质疑都无法站得住脚，京东未来盈利千亿也并非只是梦想。京东的亏损源自重模式其实对京东的质疑从几年前就已经开始，并非新鲜话题，

2014-08-11 09:46:53 2121 1

原创 Hadoop 新 MapReduce 框架 Yarn 详解

对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，对于 Hadoop 框架的介绍在此不再累述，读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架（0.20.0 及之前版本）的同仁应该很熟悉如下的原 MapReduce 框架图：图 1.Hadoop 原 MapReduce 架构从上图中可以清楚的看出原

2014-08-07 19:19:53 166

原创时刻不停的工作，你将一事无成

读了哈佛商业评论的这篇文章，发现自己真正id

2014-08-06 11:45:22 710

原创 HDFS小文件问题及解决方案

1、概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先，在HDFS中，任何block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果有1000 0000个小文件，每个文件占用一个block，则namenode大约需要2G空间。如果存储1亿个文件，则namenode需要20G空间（见参考资料[1]

2014-08-06 09:48:59 563