xiaoqixiaodong-CSDN博客

转载【Hadoop】三句话告诉你 mapreduce 中MAP进程的数量怎么控制？

1、果断先上结论1.如果想增加map个数，则设置mapred.map.tasks 为一个较大的值。2.如果想减小map个数，则设置mapred.min.split.size 为一个较大的值。3.如果输入中有很多小文件，依然想减少map个数，则需要将小文件merger为大文件，然后使用准则2。2、原理与分析过程看了很多博客，感觉没有一个说的很清楚，所以我来整理一下。...

2019-03-19 17:32:36 435

转载 hive优化（1）

1 sql书写规范尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区。案例：SELECT a.key,col1,col2,col3,col4FROM A a LEFT OUTER JOIN B b ON a.key = b.key and a.dt=‘20150101’ and b.dt=‘20150101';

2017-12-29 18:45:57 292

转载 druid原理

Durid是在2013年底开源出来的，当前最新版本0.9.2, 主要解决的是对实时数据以及较近时间的历史数据的多维查询提供高并发(多用户)，低延时，高可靠性的问题。对比Druid与其他解决方案，Kylin对数据按照分区每天构建前一天的cube数据提供给用户查询，用户查询的是历史数据。而Druid不断的从ingest去拉取数据，持续构建cube，提供实时查询，主要作者下面两位, 其中一位创建了一

2017-11-17 18:09:51 3235 1

转载数据仓库的模型设计

数据仓库的模型设计A. 数据建模方法论数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。模型设计分为三个阶段：1，概念模型对业务的范围和使用，从高度上进行抽象概括，也就是划分主题域。一般划分为8个主题域：客户、服务、服务使用、账务、结算、资源、客服、营销为什么要划分主题域？划分主题域，是根据业务的应用和需要来划分的

2016-07-27 16:10:33 631

转载 HBase详解：HBase体系结构

1.HBase简介HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运

2016-07-26 17:58:24 997

转载 HIVE 窗口及分析函数应用场景

窗口函数应用场景：（1）用于分区排序（2）动态Group By（3）Top N（4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明RANK()返回数据项在分组中的排名，排名相等会在名次中留下空位DENSE_RANK()返回数据项在分组中的排名，排名相等会在名

2015-04-17 10:31:55 548

转载 git

GIT是非常优秀的版本控制工具，但是苦于git那晦涩难懂的man pages，还有众多的命令选项和怪异的用法，git有点难学。这篇文章分享我学习过程中收藏的一些好图，并围绕这些图讲讲我对git的理解，希望对大家有所帮助。GIT工作流程了解git，首先要弄清楚对象在被git管理过程中所处的4个阶段，分别是：工作目录、index(又称为暂存区)、本地仓库和远程仓库。从时间先后来讲，工作

2015-02-27 10:46:59 343

转载 flume-ng+Kafka+Storm+HDFS 实时系统搭建

【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 实时系统搭建一直以来都想接触Storm实时计算这块的东西，最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档，自己也跟着整了一遍，之前罗宝的文章中有一些要注意点没提到的，以后一些写错的点，在这边我会做修正；内容应该说绝大部分引用罗宝的文章的，这里要谢谢罗宝兄弟，还

2015-02-25 15:06:37 574

转载 Hive几种数据导入方式

数据导入方式，我总结为四种：（1）、从本地文件系统中导入数据到Hive表；（2）、从HDFS上导入数据到Hive表；（3）、从别的表中查询出相应的数据并导入到Hive表中；（4）、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。我会对每一种数据的导入进行实际的操作，因为纯粹的文字让人看起来很枯燥，而且学起来也很抽象。好了，开始操作！一、从本地

2015-02-12 10:46:26 962

转载修改JVM启动参数

用java命令查看。用java -option进行修改参数。还有tomcat，eclipse启动时通过配置文件加载的。详细如下：安装Java开发软件时，默认安装包含两个文件夹，一个JDK(Java开发工具箱)，一个JRE(Java运行环境，内含JVM)，其中JDK内另含一个JRE。如果只是运行Java程序，则JRE已足够；而JDK则只有开发人员才用到。一、配置JVM内存

2014-09-19 15:45:36 11748 1

转载 JVM启动参数

前言有时候程序会碰到java.lang.OutOfMemoryError，这个主要是JVM参数没有配好引起的。OutOfMemoryError分两种：java.lang.OutOfMemoryError: Java heap space和java.lang.OutOfMemoryError: PermGen space。前者是有关堆内存的内存溢出，可以通过配置-Xms和-Xmx参数

2014-09-19 15:22:35 433

转载详解Java GC的工作原理+Minor GC、FullGC

JVM内存管理和JVM垃圾回收JVM内存组成结构JVM内存结构由堆、栈、本地方法栈、方法区等部分组成，结构图如下所示：1)堆所有通过new创建的对象的内存都在堆中分配，其大小可以通过-Xmx和-Xms来控制。堆被划分为新生代和旧生代，新生代又被进一步划分为Eden和Survivor区，最后Survivor由FromSpace和ToSpace组

2014-09-19 14:33:45 328

转载垃圾回收器算法

在说垃圾回收算法之前，先谈谈JVM怎样确定哪些对象是“垃圾”。 1.引用计数器算法：引用计数器算法是给每个对象设置一个计数器，当有地方引用这个对象的时候，计数器+1，当引用失效的时候，计数器 -1 ，当计数器为 0 的时候，JVM 就认为对象不再被使用，是“垃圾”了。引用计数器实现简单，效率高；但是不能解决循环引用问问题（A对象引用 B 对象，B 对象又引用

2014-09-19 13:50:49 378

转载 hadoop 性能调优重要参数设置技巧

这里主要针对Mapreduce的性能调优。这一两个月在做mapreduce的性能调优，有些心得，还是要记下来的，以郷后人~这里主要涉及的参数包括：HDFS：dfs.block.sizeMapredure：io.sort.mbio.sort.spill.percentmapred.local.dirmapred.map.tasks & mapred

2014-09-10 11:42:25 497

转载 shell 脚本实--集群环境配置检测

1). 背景:　　集群部署的时候, 需要一致的配置和环境设置. 对于虚拟机集群, 可以借助镜像拷贝, 复制和还原集群机器. 对与物理机集群而言, 则不一样, 如果机器一多, 多人去操作和配置, 对于成熟精干的团队还好, 对于不熟悉环境的小团队, 由于水平的参差不齐, 往往会导致不一致的环境. 因此无论如何, 写脚本进行自动化的配置和环境校验总是最佳实践.2). 假设应用场景:*)

2014-09-05 15:01:07 870

转载 Hadoop调优

Hadoop调优mapred.tasktracker.map.tasks.maximum 官方解释：The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解：一个tasktracker最多可以同时运行的map任务数量默认值

2014-08-21 16:29:52 465

转载 hadoop调优

这里主要针对Mapreduce的性能调优。这一两个月在做mapreduce的性能调优，有些心得，还是要记下来的，以郷后人~这里主要涉及的参数包括：HDFS：dfs.block.sizeMapredure：io.sort.mbio.sort.spill.percentmapred.local.dirmapred.map.tasks & mapred.tasktracker.m

2014-08-21 16:09:12 404

转载 Hadoop读写文件时内部工作机制

读文件　　读文件时内部工作机制参看下图：　　客户端通过调用FileSystem对象（对应于HDFS文件系统，调用DistributedFileSystem对象）的open()方法来打开文件（也即图中的第一步），DistributedFileSystem通过RPC（Remote Procedure Call）调用询问NameNode来得到此文件最开始几个block的文件位置（第二步）。对每一个bl

2014-08-21 15:38:53 367

转载 hadoop shuffle过程

Shuffle描述着数据从map task输出到reduce task输入的这段过程。个人理解：map执行的结果会保存为本地的一个文件中：只要map执行完成，内存中的map数据就一定会保存到本地文件，保存这个文件有个过程叫做spilll（溢写），如果需要对map的执行结果做 combine 也是在这个时候（溢写执行的时候，写入磁盘之前）做的

2014-08-21 15:17:10 1787

转载 Hadoop 中的两表join

作为数据分析中经常进行的join 操作，传统DBMS 数据库已经将各种算法优化到了极致，而对于hadoop 使用的mapreduce 所进行的join 操作，去年开始也是有各种不同的算法论文出现，讨论各种算法的适用场景和取舍条件，本文讨论hive 中出现的几种join 优化，然后讨论其他算法实现，希望能给使用hadoop 做数据分析的开发人员提供一点帮助. Facebook

2014-08-21 15:14:32 433

转载海量数据面试题----分而治之/hash映射 + hash统计 + 堆/快速/归并排序

1、从set/map谈到hashtable/hash_map/hash_set 稍后本文第二部分中将多次提到hash_map/hash_set，下面稍稍介绍下这些容器，以作为基础准备。一般来说，STL容器分两种：序列式容器(vector/list/deque/stack/queue/heap)，关联式容器。关联式容器又分为set(集合)和map(

2014-08-20 17:00:59 505

转载快速排序

快速排序由于排序效率在同为O(N*logN)的几种排序方法中效率较高，因此经常被采用，再加上快速排序思想----分治法也确实实用，因此很多软件公司的笔试面试，包括像腾讯，微软等知名IT公司都喜欢考这个，还有大大小的程序方面的考试如软考，考研中也常常出现快速排序的身影。总的说来，要直接默写出快速排序还是有一定难度的，因为本人就自己的理解对快速排序作了下白话解释，希望对大家理解有帮助，达到快速

2014-08-20 16:53:47 290

转载各种排序算法的稳定性和时间复杂度小结

选择排序、快速排序、希尔排序、堆排序不是稳定的排序算法，冒泡排序、插入排序、归并排序和基数排序是稳定的排序算法。冒泡排序是稳定的，算法时间复杂度是O(n ^2)。 2.2 选择排序（Selection Sort）选择排序的基本思想是对待排序的记录序列进行n-1遍的处理，第i遍处理是将L[i..n]中最小者与L[i]交换位置。这样，经过i遍处理之后，前i个

2014-08-20 16:22:22 294

转载归并排序

归并排序是利用递归和分而治之的技术将数据序列划分成为越来越小的半子表，再对半子表排序，最后再用递归步骤将排好序的半子表合并成为越来越大的有序序列，归并排序包括两个步骤，分别为： 1）划分子表 2）合并半子表首先我们来讨论归并算法，归并算法将一系列数据放到一个向量中，索引范围为[first,last],这个序列由两个排好序的子表构成，以索引终点

2014-08-20 15:40:31 321

转载最大堆和最小堆

堆的定义是：n个元素的序列{k1,k2,…,kn}，当且仅当满足如下关系时被成为堆　　　(1)Ki 2i 且 ki 2i-1 　　或 (2) Ki >= k2i 且 ki >= k2i-1 　　　　　　　　　　(i = 1,2,…[n/2])当满足(1)时，为最小堆，当满足(2)时，为最大堆。　　若将此序列对应的一维数组堪称是一个完

2014-08-20 10:57:39 371

转载 shell面试题

1．用Shell编程，判断一文件是不是块或字符设备文件，如果是将其拷贝到 /dev 目录下。 #!/bin/bash#1.sh#判断一文件是不是字符或块设备文件，如果是将其拷贝到 /dev 目录下#file executable: chmod 755 1.shPATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/loc

2014-08-18 15:21:28 640

转载 spark internal - 作业调度

作者：刘旭晖 Raymond 转载请注明出处Email：colorant at 163.comBLOG：http://blog.csdn.net/colorant/在Spark中作业调度的相关类最重要的就是DAGScheduler，DAGScheduler顾名思义就是基于DAG图的SchedulerDAG全称 Directed Acy

2014-08-15 14:55:36 539

转载 Spark 快速理解

目标Scope（解决什么问题）在大规模的特定数据集上的迭代运算或重复查询检索

2014-08-15 14:54:17 358

转载学习Hadoop不错的系列文章

学习Hadoop不错的系列文章1）Hadoop学习总结　　（1）HDFS简介　　（2）HDFS读写过程解析　　（3）Map-Reduce入门　　（4）Map-Reduce的过程解析　　（5）Hadoop的运行痕迹　　（6）Apache Hadoop 版本 2）Hadoop-0.20.0源代码分析　　（1）Hadoop-0.20.0源代码分析（01

2014-07-21 16:47:25 478

转载 Hadoop集群（第7期）_Eclipse开发环境设置

Hadoop集群（第7期）_Eclipse开发环境设置1、Hadoop开发环境简介1.1 Hadoop集群简介　　Java版本：jdk-6u31-linux-i586.bin　　Linux系统：CentOS6.0　　Hadoop版本：hadoop-1.0.0.tar.gz 1.2 Windows开发简介　　Java版本：jdk-6u31-windows-

2014-07-21 16:37:42 303

转载 Hadoop集群（第6期）_WordCount运行详解

Hadoop集群（第6期）_WordCount运行详解 1、MapReduce理论简介 1.1 MapReduce编程模型　　MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。　　在Hadoop

2014-07-21 16:36:37 429

转载 Hadoop集群（第5期副刊）_JDK和SSH无密码配置

Hadoop集群（第5期副刊）_JDK和SSH无密码配置 1、Linux配置java环境变量 1.1 原文出处地址：http://blog.csdn.net/jiedushi/article/details/6672894 1.2 解压安装jdk　　在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录，执行命令 .

2014-07-21 16:34:41 344

转载 Hadoop集群（第5期）_Hadoop安装配置

Hadoop集群（第5期）_Hadoop安装配置 1、集群部署介绍 1.1 Hadoop简介　　Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统（HDFS，Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供

2014-07-21 16:28:16 672

转载 Hadoop集群（第4期）_SecureCRT使用

Hadoop集群（第4期）_SecureCRT使用 1、SecureCRT简介　　SecureCRT是一款支持SSH（SSH1和SSH2）的终端仿真程序，同时支持Telnet和rlogin协议。SecureCRT是一款用于连接运行包括Windows、UNIX和VMS的远程系统的理想工具。通过使用内含的VCP命令行程序可以进行加密文件的传输。有流行CRTTelnet

2014-07-21 16:27:05 387

转载 Hadoop集群（第3期）_VSFTP安装配置

Hadoop集群（第3期）_VSFTP安装配置　　1、VSFTP简介　　VSFTP是一个基于GPL发布的类Unix系统上使用的FTP服务器软件，它的全称是Very Secure FTP 从此名称可以看出来，编制者的初衷是代码的安全。　　安全性是编写VSFTP的初衷，除了这与生俱来的安全特性以外，高速与高稳定性也是VSFTP的两个重要特点。　　在速度方面，使用AS

2014-07-21 16:25:27 337

转载 Hadoop集群（第5期）_Hadoop安装配置

Hadoop集群（第5期）_Hadoop安装配置 1、集群部署介绍 1.1 Hadoop简介　　Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统（HDFS，Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供

2014-07-21 16:25:26 756

转载 Hadoop集群（第2期）_机器信息分布表

Hadoop集群（第2期）_机器信息分布表1、分布式环境搭建　　采用4台安装Linux环境的机器来构建一个小规模的分布式集群。图1 集群的架构　　其中有一台机器是Master节点，即名称节点，另外三台是Slaver节点，即数据节点。这四台机器彼此间通过路由器相连，从而实验相互通信以及数据传输。它们都可以通过路由器访问Internet，实验网页文档的采集。

2014-07-21 16:24:42 359

转载 Hadoop集群（第1期）_CentOS安装配置

Hadoop集群（第1期）_CentOS安装配置 1、准备安装 1.1 系统简介　　CentOS 是什么？　　CentOS是一个基于Red Hat企业级 Linux 提供的可自由使用的源代码企业级的 Linux 发行版本。每个版本的CentOS 都会获得七年的支持（通过安全更新方式）。新版本的CentOS 每两年发行一次，而每个版本的 C

2014-07-21 16:23:04 440

转载常用MySQL数据库命令

Hadoop集群（第10期副刊）_常用MySQL数据库命令1、系统管理1.1 连接MySQL　　格式： mysql -h主机地址 -u用户名－p用户密码　　举例：　　例1：连接到本机上的MySQL。　　首先在打开DOS窗口，然后进入目录 mysqlbin，再键入命令"mysql –u root –p"，回车后提示你输密码，如果刚安装好MySQL，超级用户"

2014-07-21 16:20:02 380

转载 Hadoop集群（第8期）_HDFS初探之旅

Hadoop集群（第8期）_HDFS初探之旅1、HDFS简介　　HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储

2014-07-21 16:15:56 395

空空如也

空空如也