自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(78)
  • 资源 (2)
  • 收藏
  • 关注

原创 Dijkstra的双栈算法表达式求值算法

import java.util.Stack;/** * Created by gary on 16-1-3. */public class TestStack { public static void main(String[] args) { String expression = "(1+((2+3)*(4*5)))"; Stack<Charact

2016-01-03 16:56:03 860

原创 Linux(CentOS)常用命令

echo $LANG 显示系统语言LANG=[zh_CN.UTF-8 | en_US]设置系统语言date显示系统时间 date "+%Y-%m-%d %H:%M:%S"格式化日期cal 显示日历 cal[[month] year] cal 12 2015显示2015年12月份日历bc 计算器chgrp 修改用户组 chgrp [-R] group filenamecho

2015-12-30 14:34:51 450

原创 二维数组的查找问题

题目:在一个二维数组中,每一行都按照从左往右递增的顺序排序,每一列都是按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否拥有这个数字。例如:下面这个数组就是每行每列都是递增排序,如果在这个数组中查找7,则返回true, 查找数字5,因为数组中不含有该数字,则返回false。1 2 8 92 4 9

2015-09-16 11:05:38 588

原创 Hadoop 实例16-----MultipleOutputs实战:结果输出到多个文件夹或者文件中

1.输出到多个文件或多个文件夹: 驱动中不需要额外改变,只需要在MapClass或Reduce类中加入如下代码private MultipleOutputs<Text,IntWritable> mos;public void setup(Context context) throws IOException,InterruptedException {  mos = new MultipleO

2015-09-10 10:04:49 4639 3

原创 Hadoop 实例15 MultipleInputs实战2:多种自定义文件格式的文件输入处理

MultipleInputs 可以让MR支持多种输入格式。比如我们有两种文件格式,那么我们就需要有两套 Record Class, RecordReader和InputFormat。MultipleInputs需要不同的InputFormat, 一种InputFormat使用一种RecordReader来读取文件并返回一种Record格式的值,这就是这三个类型的关系,也是map过程中涉及的几个步骤的

2015-09-09 19:13:27 1109

原创 Hadoop 实例14 MultipleInputs实战2:多文件输入执行join操作

hadoop多文件格式输入,一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式。1、需求:比如现在有如下的需求:现有两份数据:phone:123,good number 124,common number 125,bad number user:zhangsan,123 lisi,124 wangwu,125 现在需要把user和phone按照pho

2015-09-09 14:52:22 1701

原创 Hadoop 案例13----倒排索引

“倒排索引”是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)。 1、说明 通常情况下,倒排索引由一个单词(或词组)以及相关的文档列表组成,文档列表中的文档或者是标识

2015-09-08 16:59:04 743

原创 Hadoop 案例12----自连接问题

1、需求分析 实例中给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。 2、原始数据 file:child parent Tom LucyTom Jack Jone LucyJone JackLucy MaryLucy BenJ

2015-09-08 11:20:44 655

原创 Hadoop 实例11 二次排序讲解

说明: 关于二次排序主要涉及到这么几个东西:在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGroupingComparator 在0.20.0以后使用是 job.setPartitionerClass(Partitioner p); job.setS

2015-09-08 09:20:09 749

原创 Hadoop 实例10 Join讲解3: 将人员的地址ID完善成为地址名称,输出格式要求:人员Id,姓名,地址 ----优化方案

1、原始数据 人员ID 人员名称 地址ID 1 张三 1 2 李四 2 3 王五 1 4 赵六 3 5 马七 3另外一组为地址信息: 地址ID 地址名称 1 北京 2 上海 3 广州2、处理说明 该处理接着上一讲,我们对这个实现进行了总结,最主要的问题就是实现的可扩展性,由于在reduce端我们通过一个List

2015-09-06 19:12:03 724

原创 Hadoop 实例9 Join讲解2: 将人员的地址ID完善成为地址名称

输出格式要求:人员Id,姓名,地址 1、原始数据 人员ID 人员名称 地址ID1 张三 12 李四 23 王五 14 赵六 35 马七 3另外一组为地址信息: 地址ID 地址名称1 北京2 上海3 广州2、处理说明         这里给出了一个很简单的例子,而且数据量很小,就这么用眼睛就能看过来的几行,当然,实际的情况可能是几十万上百万

2015-09-06 10:39:59 523

原创 Hadoop 实例8 Join讲解1: 获取员工所在部门信息

输出格式要求:员工编号,员工姓名,部门名称,部门编号 1、原始数据 员工数据empno ename job mgr hiredate sal comm deptno loc7499 allen salesman 7698 1981-02-20 1600 300 30 7782 clark managers

2015-09-05 22:39:45 1209

原创 Hadoop 案例7-----日志分析:分析非结构化文件

1、需求:根据tomcat日志计算url访问了情况,具体的url如下, 要求:区别统计GET和POST URL访问量 结果为:访问方式、URL、访问量127.0.0.1 - - [03/Jul/2014:23:36:38 +0800] "GET /course/detail/3.htm HTTP/1.0" 200 38435 0.038182.131.89.195 - - [0

2015-09-05 20:17:55 1590

原创 Hadoop 案例6-----TopN问题:求最大的K个值并排序

1、需求分析orderid,userid,payment,productid [root@x00 hd]# cat seventeen_a.txt1,9819,100,1212,8918,2000,1113,2813,1234,224,9100,10,11015,3210,490,1116,1298,28,12117,1010,281,908,1818,9000,20[root@x0

2015-09-05 16:18:37 2687

原创 Hadoop 案例5-----求最大最小值问题

1、数据准备 [root@x00 hd]# cat eightteen_a.txt 10210391092001139028[root@x00 hd]# cat eightteen_b.txt 52308382.Mapper程序:package cn.edu.bjut.maxmin;import java.io.IOException;import org.apache.ha

2015-09-05 14:44:29 1928

原创 Hadoop 案例4----平均成绩

1、需求分析 对输入文件中数据进行就算学生平均成绩。输入文件中的每行内容均为一个学生的姓名和他相应的成绩,如果有多门学科,则每门学科为一个文件。 要求在输出中每行有两个间隔的数据,其中,第一个代表学生的姓名,第二个代表其平均成绩。2、原始数据 1)math:张三 88李四 99王五 66赵六 772)china:张三 78李四 89王五

2015-09-05 13:55:55 1499

原创 Hadoop 案例3----数据排序

“数据排序”是许多实际任务执行时要完成的第一项工作, 比如学生成绩评比、数据建立索引等。这个实例和数据去重类似,都是先对原始数据进行初步处理,为进一步的数据操作打好基础。下面进入这个示例。1、需求描述 对输入文件中数据进行排序。输入文件中的每行内容均为一个数字,即一个数据。 要求在输出中每行有两个间隔的数字,其中,第一个代表原始数据在原始数据集中的位次,第二个代表原始数据。2、原始数据1)

2015-09-05 10:27:26 1472

原创 Hadoop 案例2----数据去重问题

1、原始数据 1)file1:2012-3-1 a2012-3-2 b2012-3-3 c2012-3-4 d2012-3-5 a2012-3-6 b2012-3-7 c2012-3-3 c 2)file2:2012-3-1 b2012-3-2 a2012-3-3 b2012-3-4 d2012-3-5 a2012-3-6 c2012-3-7 d2012-3-3 c 2.mapper:packag

2015-09-04 20:36:42 1375

原创 Hadoop 实例1---通过采集的气象数据分析每年的最高温度

1.原始数据分析0067011990999991950051507004888888889999999N9+00001+99999999999999999999990067011990999991950051512004888888889999999N9+00221+99999999999999999999990067011990999991950051518004888888889999999

2015-09-04 19:38:10 8206

原创 ubuntu设置命令行启动

推荐方法二方法1. sudo gedit /etc/default/grub将代码:GRUB_CMDLINE_LINUX_DEFAULT="quiet splash" 改为: GRUB_CMDLINE_LINUX_DEFAULT="text" 然后sudo update-grub方法2. sudo gedit /etc/default/grub设置:GRUB_CMD

2015-09-02 16:11:42 640

原创 Hadoop学习笔记(十九)---Hive Java Api

1。首先要启动hive的服务器:hive --service hiveserver &hive默认的端口为:100002.程序源代码为:import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.Statement;public class HiveTes

2015-09-01 20:34:46 542

原创 Hadoop学习笔记(十八)---Hive内部表,外部表,分区表,桶表

内部表: 1.创建表:create table stu(id int);2.插入数据:hive插入数据不能用insert语句,需要从外部文件中加载数据,比如创建一个文件stu_data,内容为:12345命令为(其中/home/hadoop/Public/stu_data为文件路径):load data local inpath '/home/hadoop/Public/stu_data'

2015-09-01 20:00:01 760

原创 Hadoop学习笔记(十七)---Hive安装及配置

1.下载对应版本的hive,然后通过ftp上传到linux服务器,解压,然后改名,我是放在/usr/local目录下面。#给该文件可读可写可执行权限chmod 777 hive-0.10.0.tar.gz #移动到/usr/local目录下面cp hive-0.10.0.tar.gz /usr/local #解压该文件tar -xvf hive-0.10.0.tar.gz #将该文件改名为hi

2015-09-01 12:55:11 456

原创 Hadoop学习笔记(十六)---HBase JAVA API

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.hadoop.hbase.HTableDescriptor; im

2015-08-31 21:43:29 422

原创 java动态反射调用方法

比如说现在有一个类:package com.shangpin.model;class Function { public void print(String s, Integer i) { System.out.println("print:String+int:"+s+i); } public void print(String s1, String s2) {

2015-08-12 17:58:15 2601

原创 数据结构学习笔记(二)---单链表

单链表中结点类型的描述如下:class LNode { Integer data; LNode next;}1.头插法建立单链表。 从一个空表开始,生成新节点,并将读取到的数据存放到新节点的数据域中,然后将新节点插入到当前链表的表头,即头结点之后,如图所示:算法如下:public LNode createList1() { LNode l = new LNode(

2015-08-08 17:47:58 593

原创 JAVA编程思想学习笔记(二)---方法重载

在日常生活中,相同的词可以表达多种不同的含义,特别是含义之间的差别很小时,这种方式十分有用,你可以说“清洗衬衫”,“清洗车”,“清洗狗”等等,这就相当于我们在程序中定义了一个方法名“清洗”,我们可以传入不同的对象“衬衫”,“车”,“狗”等,而不是定义三个方法名“清洗衬衫”,“清洗车”,“清洗狗”,这样会显得很冗余。        大多数程序语言(例如C)要求每个方法都会提供一个独一无二的标识符,例如

2015-08-08 14:38:30 518

原创 JAVA编程思想学习笔记(一)---一切都是对象

1.基本数据类型boolean类型所占存储空间的大小没有明确指定,仅定义能够取字面值true或false。 基本类型具有的包装器类型,使得可以在堆中创建 一个非基本对象,用来表示对应的基本类型。例如:char c = 'x';Character ch = new Character(c);或者这样用:Character ch = new Character('x');java SE5及以后的版本

2015-08-08 11:26:36 409

原创 Algorithms(二)---二叉树的相关问题

声明本文中所用的二叉树的节点结构定义如下:class Node { private Node left; private Node right; private int data; public Node(Node left, Node right, int data) { this.left = left; this.right = ri

2015-08-06 16:17:12 457

原创 Algorithms(一)---最大子数组和问题

1.You are given an array containing both positive and negative integers and required to find the sub-array with the largest sum (O(N) a la KBL). Write a routine for the above.题目描述: 输入一个整形数组,数组里有正数也有负数

2015-08-05 16:11:18 820

原创 数据结构(一)---线性表

1.从顺序表(数组)中找到最小值的元素。思想:遍历整个顺序表,查找最小值元素并记住,遍历结束就可以获得整个数组的最小值 public static int findMin(int[] arr) { if(0 == arr.length || null == arr) { //数组为空,终止操作 return -1; }

2015-07-30 22:34:55 430

原创 Hadoop学习笔记(十五)---Hbase shell命令的使用

1.启动hbase, 进入hbase文件夹下面的bin文件夹,然后执行命令:hbase shell[root@hadoop0 bin]# hbase shellHBase Shell; enter 'help<RETURN>' for list of supported commands.Type "exit<RETURN>" to leave the HBase ShellVersion 0

2015-06-07 21:49:19 1985

原创 EL表达式学习笔记

如果你将一个字符串放进request里面,如果我们用jsp的知识来在前台取的数据,如下所示:<%= request.getAttribute("hello") %>但如果用EL表达式的话,就可以写成下面的样子:${hello }说明一下:el表达式的隐含对象为pageScope, requestScope, sessionScope, applicationScope如果未指定scope,它的搜索顺

2015-06-06 18:19:34 552

原创 Hadoop学习笔记(十四)---Hbase集群安装及配置

基本配置跟上一讲差不多,主要讲一下不同:1.在配置hbase-site.xml时,内容修改为如下:<configuration> <property> <name>hbase.rootdir</name> <value>hdfs://hadoop0:9000/hbase</value> </property> <property> <name>hbase.cluste

2015-06-06 14:12:08 417

原创 Hadoop学习笔记(十三)---Hbase的伪分布安装及配置

1.下载hbase,然后通过ftp上传到linux 2.复制到/usr/local/,然后解压,重命名hbase 3.执行命令vim /etc/profile,添加环境变量:export HBASE_HOME=/usr/local/hbaseexport PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HBASE_HOME/bin4.让环境变量立马生效:

2015-06-06 12:07:58 636

原创 Hadoop学习笔记(十二)---hadoop配置文件详解

关于conf/core-site.xml, conf/hdfs-site.xml,conf/mapred-site.xml的配置作如下说明:conf/core-site.xml配置如下:fs.default.name : NameNode的ip地址及其端口 hadoop.tmp.dir : 指定临时文件的目录conf/hdfs-site.xml配置如下:dfs.replication : 备份数据的

2015-06-04 17:32:45 541

原创 Hadoop学习笔记(十一)---hadoop集群安装及配置

前面我们已经学习了如何在伪分布式的模式下运行hadoop,下面我们介绍一下如何进行hadoop集群的安装机器配置:1.这里需要克隆3份虚拟机,一台master, 两台slaves,虚拟机怎么克隆就不说了,自己百度2.对各个服务器进行网络配置,这个可以看第一讲3.修改机器名字:每台计算机都执行以下下面的代码:[root@hadoop0 hadoop]# vim /etc/sysconfig/netwo

2015-06-02 21:40:27 556

原创 Hadoop学习笔记(十)---自定义分区

所谓的自定义分区,就是规定reduce任务的数量,例如下面的数据:1 21 13 22 25 1假设上面的数据分别对应矩形的长跟宽,你会发现里面有正方形跟长方形,现在我们按照面积大小从大到小排序,一个文件输出的是长方形的数据,一个输出的是正方形的数据,这里我们就要自定义一个分区:package cn.edu.bjut.model;import org.apache.hadoop.io.Nul

2015-06-02 15:49:54 1483

原创 Hadoop学习笔记(九)---自定义排序

如果有下面的数,我们想按照每行两个数的乘积的大小来进行排序,就得如下操作:1 21 13 22 25 1先自定义排序的key,注意实现 WritableComparable这个接口:package cn.edu.bjut.model;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;

2015-06-02 14:18:22 445

原创 Hadoop学习笔记(八)---内置数据类型与自定义数据类型

例如我们要计算下面数据的同一电话号码(5,6,7,8位置)相同位置数据相加结果:1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 24 27 2481 24681 2001363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 24 27 2481 2

2015-06-01 22:19:32 1566

高清扫描版-Scala编程

scala编程完整版

2017-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除