自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

white先生的博客

大志非才不就,大才非学不成。

  • 博客(15)
  • 收藏
  • 关注

原创 Hive动手实践

一 Hive是什么?为什么会出现?解决了什么问题?Hive它不是一个数据库,它是一个数据仓库。它只是提供了我们通过类SQL语句访问存储在HDFS上的数据的一个接口。它借用了HDFS的可拓展、高可用、海量数据存储的优势(真正的数据存储在HDFS上),同时借用MapReduce计算框架的计算功能,并将HDFS上文件和Hive表的映射关系存储在关系型数据库中。通过解析类SQL语句和XML驱动的方式,调用...

2018-05-20 16:21:29 328

转载 MapReduce的Shuffle过程详解

Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分发;Reduce是规约,负责数据的计算归并。Red...

2018-05-15 10:50:45 2476

转载 基于Hadoop的数据仓库Hive 基础知识

基于Hadoop的数据仓库Hive 基础知识Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。一、概述1.1 数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriente...

2018-05-09 14:53:47 333

原创 剑指offer系列题(21-25)

21.栈的压入、弹出序列题目描述输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是否为该栈的弹出顺序。假设压入栈的所有数字均不相等。例如序列1,2,3,4,5是某栈的压入顺序,序列4,5,3,2,1是该压栈序列对应的一个弹出序列,但4,3,5,1,2就不可能是该压栈序列的弹出序列。(注意:这两个序列的长度是相等的)题目思路如果下一个弹出的数字刚好是栈顶数字,那么直接弹出。如果下一个弹...

2018-05-06 21:46:55 123

原创 剑指offer系列题(13-20)

13.调整数组顺序使奇数位于偶数题目描述输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有的奇数位于数组的前半部分,所有的偶数位于位于数组的后半部分,并保证奇数和奇数,偶数和偶数之间的相对位置不变。题目思路该题有很多的解法,这里提的是一种比较容易想到的思路,及类似于冒泡排序。当前面是为偶数后面是为奇数则交换顺序。当然该题还包括了插入排序,快速、归并等各种方法,在时间复杂度上有优势,为...

2018-05-06 21:40:46 123

原创 Hadoop理论之MapReduce

1.MapReduce的主要功能:      1)数据划分和计算任务调度:系统自动将一个作业(Job)待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(Task),并自动 调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点(Map节点或Reduce节点),同时负责监控这些节点的执行状态,并 负责Map节点执行的同步控制。      2)数据/代码互定位:为了...

2018-05-06 21:14:00 577

原创 Hadoop理论之HDFS

1.HDFS( 存储功能)特点:大规模数据集(支持节点扩展)简单一致性模型(一次写入多次读取)流式数据访问(对数据进行批量处理,而不是用户交互处理)硬件错误(有很强的容错能力)权限问题(写入者就是拥有者)。安全性,不是很高。2.HDFS组成:namenode  datanode 以及secondarynamenode,edits,fsimage等namenode(管理者):存储为数据的元数据(me...

2018-05-06 17:36:49 211

原创 剑指offer—青蛙跳台阶(最多跳n级)

题目描述一只青蛙一次可以跳上1级台阶,也可以跳上2级……它也可以跳上n级。求该青蛙跳上一个n级的台阶总共有多少种跳法。题目思路该题看起来比跳两级台阶的青蛙厉害多了,但也可受两级台阶青蛙的启示(第n级台阶的方法必定跟跳到前面台阶的次数有关系)。果不其然,第n级台阶的方法为前n级台阶方法的累加。即f(n) = f(n-1) + f(n-2) + f(n-3) + ... + f(n-(n-1)) + ...

2018-04-22 17:21:23 712

原创 剑指offer—青蛙跳台阶(最多跳两级)

题目描述一只青蛙一次可以跳上1级台阶,也可以跳上2级。求该青蛙跳上一个n级的台阶总共有多少种跳法。题目思路该题是一个隐性的斐波拉契数列(前两个数值不同),可用找规律的方法发现。究其原理,如给出为n,因为青蛙只有跳一步和跳两步的选着,则青蛙只可能从n-1的位置或n-2的位置跳过来,则只需将到达n-1位置的选择数加n-2的选择数即可。因为n-1和n-2保存了到达相应位置的次数。则该问题迎刃而解。代码p...

2018-04-22 17:19:36 162

原创 剑指offer—斐波那契数列

题目描述大家都知道斐波那契数列,现在要求输入一个整数n,请你输出斐波那契数列的第n项。n<=39题目思路该题考的是斐波拉契数列,我们需要弄懂斐波拉契数列元素之间的关系。及后一个元素为前两个元素之和,数列前两个数等于1.由于题目要求n《=39.则开了一个40的数组(第零位不用)。通过while循环,计算第n位斐波拉契数列的值。思路优化:前面的思路需要维护一个数组,但在计算后续数值时只需要前面两...

2018-04-22 17:18:07 115

原创 剑指offer—旋转数组最小的数字

题目描述把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。 输入一个非递减排序的数组的一个旋转,输出旋转数组的最小元素。 例如数组{3,4,5,1,2}为{1,2,3,4,5}的一个旋转,该数组的最小值为1。 NOTE:给出的所有元素都大于0,若数组大小为0,请返回0。题目思路非递减数组旋转之后最小值,也就是寻找分界点,分界点前后都是非递减数组,分界点后面的非递减数组比分界点前面的...

2018-04-22 17:16:29 94

原创 大数据平台(二)——命令行编译打包自己的MapReduce程序

写在前面博主的运行环境为Hadoop-2.7.3,集群模式(因硬件简陋,只开了两台虚拟机)在此之前Java运行环境,Hadoop环境已搭好。本文通过WordCount实例向大家分享,将自己编写的mapreduce程序通过编辑在命令行模式下在Hadoop集群下运行。编译环境配置因为mapreduce程序的运行需要依赖Hadoop自带的一些jar包, 例如:import org.apac...

2018-04-19 15:25:04 622

原创 碎碎念

毕业前的小感想本人还是太懒了,明明有事情决定好去做的,到最后都不了了之了。许多原因吧,一方面自己自己想学的和想做的太多了,学的东西太杂了,待会也梳理梳理。另一方面,抵挡诱惑的能力太差了,自律能力太差了。作为一名立志技术的小菜鸟,还是希望能在自己的学习和成长过程中留下印记,毕竟写字记录的年代已经过去了。2018对我来说比较关键的一年,研究生的时光混混而过。还可以很清楚的记得入校的踌躇满志...

2018-04-18 21:57:39 513

原创 K-Means聚类算法

K-Means聚类算法K-Means聚类算法是典型的基于距离的非层次聚类算法,在最小化误差的函数的基础上将数据划分为预设的类数K,采用距离作为相似性的评价标准,即认为两个对象的距离越近,其相似度就越大。1.算法过程:从N个样本数据中随机选取K个对象作为初始的聚类中心。 分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中。所有对象分配完成之后,重新计算K个聚类的中心。与前一

2017-05-27 21:19:21 1785

原创 Hadoop简介与环境搭建(独立模式/伪分布式)

Hadoop简介与环境搭建Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。其中它有两个核心: - HDFS( 存储功能)大规模数据集(支持节点扩展)简单一致性模型(一次写入多次读取)流式数据访问(对数据进行批量处理,而不是用户交互处理)硬件错误(有很强的容错能力)

2017-05-25 18:07:31 772

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除