xxiaoMinGLL-CSDN博客

原创 Python入门小结

网上学习过程中整理的一个小结，非常零散，用来巩固一下记忆，以后的学习过程中再继续整理补充。#-*-coding:utf-8 -*-,把文件编码类型改为utf-8，这样代码中就可以有中文了，另外也支持Unicode字符串，使用 u'...'Python内置的数据类型：listlist是一种有序集合，可以随时添加和删除其中的元素。创建list: L=[ ]可以按照索引访问list: L[0] 倒序...

2018-05-09 17:52:29 210

原创 MapReduce 连接操作

reduce side join在reduce端进行表的连接，该方法的特点就是操作简单，缺点是map端shffule后传递给reduce端的数据量过大，极大的降低了性能连接方法：（1）map端读入输入数据，以连接键为Key，待连接的内容为value，但是value需要添加特别的标识，表示的内容为表的表示，即若value来自于表1，则标识位设置为1，若来自表2，则设置为2，然后将m

2018-02-02 19:46:17 1028

原创 MapReduce关联性操作（三）

倒排索引"倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Index）。实例描述：通常情况下，倒排索引由一个单词（或词组）以及相关的文档列表组成

2018-02-02 16:39:45 311

原创 MapReduce关联性操作（二）

多表关联实例描述：输入是两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址表，包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系，输出"工厂名——地址名"表。样例输入：factoryname 　　　　addressed Beijing Red Star 　　　

2018-02-02 11:19:59 408

原创 MapReduce关联性操作（一）

单表关联"单表关联"要求从给出的数据中寻找所关心的数据，它是对原始数据所包含信息的挖掘。实例描述：输入child-parent表得到grandchild-grandparent表样例输入：child parent Tom LucyTom JackJone Lucy

2018-02-01 19:57:41 521

原创 HDFS 文件操作工具类

package test;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import java.io.BufferedInputStream;import java.io.FileInput

2018-01-30 19:35:36 451

原创大数据学习笔记（六）

1.Combinercombiner阶段是程序员可以选择的，combiner其实也是一种reduce操作，因此我们看见WordCount类里是用reduce进行加载的。Combiner是mapreduce的一种优化手段，每一个map都可能会产生大量的本地输出，Combiner的作用就是对map端的输出先做一次合并，以减少在map和reduce节点之间的数据传输量，以提高网络IO性能

2018-01-29 08:50:04 352

原创大数据学习笔记（五）

MapReduce的工作流程作业执行涉及4个独立的实体客户端，用来提交MapReduce作业JobTracker，用来协调作业的运行TaskTracker，用来处理作业划分后的任务HDFS，用来在其它实体间共享作业文件首先，客户端编写好MapReduce的程序，提交一个job到JobTracker上，JobTracker构建一个Job，具体就是

2018-01-27 18:43:58 273

原创大数据学习笔记（四）

一、HDFS校验和用户希望在储存和处理数据的时候，不会有任何损失或损坏，HDFS提供两种校验：1.校验和 2.运行后台进程来检测数据块校验和写入数据节点验证读取数据节点验证恢复数据Localfilesystem类ChecksumfileSystem类1.写入数据节点验证Hdfs会对写入的所有数据计算校验和，并在读取数据时验证校验和。元数据

2018-01-27 08:46:31 300

原创 hadoop集群安装部署（二）

一、配置hadoop集群一共有7个文件要修改：hadoop-2.7.1/etc/hadoop/hadoop-env.shhadoop-2.7.1/etc/hadoop/yarn-env.shhadoop-2.7.1/etc/hadoop/core-site.xmlhadoop-2.7.1/etc/hadoop/hdfs-site.xmlhadoop-2.7.1/etc/ha

2018-01-24 22:21:07 292

原创大数据学习笔记（三）

1.HDFS架构一个HDFS 文件系统包括一个主控节点NameNode 和一组DataNode 从节点。NameNode是一个主服务器，用来管理整个文件系统的命名空间和元数据，以及处理来自外界的文件访问请求。NameNode 保存了文件系统的三种元数据: 1) 命名空间，即整个分布式文件系统的目录结构; 2 ) 数据块与文件名的映射表; 3) 每个数据块副本的位置

2018-01-24 19:29:14 570

原创 hadoop集群安装部署（一）

一、安装VM10+Ubuntu下载安装完成后，创建一个用户:xm二、下载安装JDK在线安装：sudu apt-get insatll jdk离线安装：先把离线包拷贝到/home 下当前用户文件夹下，然后执行命令安装。cd /home/xm/tar -zxvf jdk-8u45-linux-x64.tarmv jdk-8u45-linux-x64.tar解压完之后

2018-01-23 21:29:18 943

原创大数据学习笔记（二）

一、CAP 、BASE理论CAP原理包括一致性（Consisitency）、可用性（Available）、分区容忍性（Partition tolerance）。CAP原理是指这三个要素最多只能同时实现两点，不可能三者兼顾。因此在进行分布式架构设计时，必须做出取舍。而对于分布式数据系统，分区容忍性是基本要求，否则就失去了价值。因此设计分布式数据系统，就是在一致性和可用性之间取一个平衡。

2018-01-23 18:43:57 386

原创大数据学习笔记（一）

一、大数据大数据（big data），指无法在一定时间范围呢用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率的多样化的信息资产。在维克托·迈尔·舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。大数据的5V特点（IB

2018-01-22 21:52:10 3923

xxiaoMinGLL的博客