自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 Python3.x和Python2.x的区别

1.性能 Py3.0运行 pystone benchmark的速度比Py2.5慢30%。Guido认为Py3.0有极大的优化空间,在字符串和整形操作上可 以取得很好的优化结果。 Py3.1性能比Py2.5慢15%,还有很大的提升空间。 2.编码 Py3.X源码文件默认使用utf-8编码,这就使得以下代码是合法的:     >>> 中国 = 'china'     >>>

2017-09-03 09:04:42 210

原创 MapReduce学习(3)

map函数的参数   Mapper接口是一个泛型类型,它有四个形参类型,分别指定map函数的输入键,输入值,输出键和输出值得类型。   输入键是一个长整型偏移量(文件中的行偏移量,该行起始位置相对于文件起始位置的偏移量),输入值则是读取的数据,输出键和输出值和reduce函数的输入相对应。

2017-07-23 19:32:11 354

转载 MapReduce学习(2)

MapReduce的工作流程总结:按照时间顺序包括: 输入分片(input split)、 map阶段、 combiner阶段、 shuffle阶段和 reduce阶段。

2017-07-23 16:21:27 557

转载 MapReduce学习(1)

MapReduce是一个编程模型,用以进行大数据量的计算MapReduce是什么   Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集Mapreduce的特点: 1.软件框架 2.并行处理 3.可靠且容错 4.大规模集群 5.海量数据集

2017-07-23 15:52:11 289

转载 HDFS的IO操作

一、数据完整性  IO操作过程中难免会出现数据丢失或脏数据,数据传输得量越大出错得几率越高,而用户希望储存和处理数据的时候,不会有任何损失或者损坏。   Hadoop提供两种校验 1校验和(常用循环冗余校验CRC-32) 2运行后台进程来检测数据块校验和

2017-07-20 20:38:40 790

转载 Hadoop学习(二)

HDFS的master/slave架构  相比于基于P2P模型的分布式文件系统架构,HDFS采用的是基于Master/Slave主从架构的分布式文件系统,一个HDFS集群包含一个单独的Master节点和多个Slave节点服务器,这里的一个单独的Master节点的含义是HDFS系统中只存在一个逻辑上的Master组件。

2017-07-19 16:25:47 238

转载 VMware下,Hadoop集群的配置

一、单机版配置 首先,先安装一个单机的Hadoop。选择VM10和64位的Ubuntu14.04为例。用户名为hadoop。 第一步,安装JDK。先下载一个jdk,可以选择直接下载,也可以从其他地方拷一个JDK解压。直接下载可以执行命令$sudo apt-get install jdk。本例选择离线安装,新建一个文件夹 $mkdir ~/software

2017-07-18 21:45:34 408

转载 初步接触Hadoop

Hadoop是什么   Hadoop是大数据的解决方案,是一个基础架构,也是一个适合大数据的分布式存储和计算的平台。Hadoop是由Apache基金会所开发的分布式基础架构,能以一种可靠、高效、可伸缩的方式进行数据处理。而且Hadoop的成本比较低,任何人都可以使用,而且Hadoop是开源的,许多中小型企业都在使用。

2017-07-18 20:01:00 207

原创 初步学习大数据

大数据时代的到来 计算机技术不断增长,数字传感器技术不断进步,使得信息更容易被获取采集,各行各业的各种数据都在飞速增长,每天都会产生大量的数据,数据的总量更是变得非常庞大,数据的计量单位也从Byte、KB、MB、 GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB。而这些海量数据,则促进了大数据时代的到来。 最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域

2017-07-17 21:26:01 778

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除