garychenqin-CSDN博客

原创 Dijkstra的双栈算法表达式求值算法

import java.util.Stack;/** * Created by gary on 16-1-3. */public class TestStack { public static void main(String[] args) { String expression = "(1+((2+3)*(4*5)))"; Stack<Charact

2016-01-03 16:56:03 860

原创 Linux（CentOS）常用命令

echo $LANG 显示系统语言LANG=[zh_CN.UTF-8 | en_US]设置系统语言date显示系统时间 date "+%Y-%m-%d %H:%M:%S"格式化日期cal 显示日历 cal[[month] year] cal 12 2015显示2015年12月份日历bc 计算器chgrp 修改用户组 chgrp [-R] group filenamecho

2015-12-30 14:34:51 450

原创二维数组的查找问题

题目：在一个二维数组中，每一行都按照从左往右递增的顺序排序，每一列都是按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否拥有这个数字。例如：下面这个数组就是每行每列都是递增排序，如果在这个数组中查找7，则返回true，查找数字5，因为数组中不含有该数字，则返回false。1 2 8 92 4 9

2015-09-16 11:05:38 588

原创 Hadoop 实例16-----MultipleOutputs实战：结果输出到多个文件夹或者文件中

1.输出到多个文件或多个文件夹：驱动中不需要额外改变，只需要在MapClass或Reduce类中加入如下代码private MultipleOutputs<Text,IntWritable> mos;public void setup(Context context) throws IOException,InterruptedException {　　mos = new MultipleO

2015-09-10 10:04:49 4639 3

原创 Hadoop 实例15 MultipleInputs实战2：多种自定义文件格式的文件输入处理

MultipleInputs 可以让MR支持多种输入格式。比如我们有两种文件格式，那么我们就需要有两套 Record Class, RecordReader和InputFormat。MultipleInputs需要不同的InputFormat，一种InputFormat使用一种RecordReader来读取文件并返回一种Record格式的值，这就是这三个类型的关系，也是map过程中涉及的几个步骤的

2015-09-09 19:13:27 1109

原创 Hadoop 实例14 MultipleInputs实战2：多文件输入执行join操作

hadoop多文件格式输入，一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式。1、需求:比如现在有如下的需求：现有两份数据：phone：123,good number 124,common number 125,bad number user：zhangsan,123 lisi,124 wangwu,125 现在需要把user和phone按照pho

2015-09-09 14:52:22 1701

原创 Hadoop 案例13----倒排索引

“倒排索引”是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Index）。 1、说明通常情况下，倒排索引由一个单词（或词组）以及相关的文档列表组成，文档列表中的文档或者是标识

2015-09-08 16:59:04 743

原创 Hadoop 案例12----自连接问题

1、需求分析实例中给出child-parent（孩子——父母）表，要求输出grandchild-grandparent（孙子——爷奶）表。 2、原始数据 file：child parent Tom LucyTom Jack Jone LucyJone JackLucy MaryLucy BenJ

2015-09-08 11:20:44 655

原创 Hadoop 实例11 二次排序讲解

说明：关于二次排序主要涉及到这么几个东西：在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGroupingComparator 在0.20.0以后使用是 job.setPartitionerClass(Partitioner p); job.setS

2015-09-08 09:20:09 749

原创 Hadoop 实例10 Join讲解3: 将人员的地址ID完善成为地址名称，输出格式要求：人员Id，姓名，地址 ----优化方案

1、原始数据人员ID 人员名称地址ID 1 张三 1 2 李四 2 3 王五 1 4 赵六 3 5 马七 3另外一组为地址信息: 地址ID 地址名称 1 北京 2 上海 3 广州2、处理说明该处理接着上一讲，我们对这个实现进行了总结,最主要的问题就是实现的可扩展性,由于在reduce端我们通过一个List

2015-09-06 19:12:03 724

原创 Hadoop 实例9 Join讲解2: 将人员的地址ID完善成为地址名称

输出格式要求：人员Id，姓名，地址 1、原始数据人员ID 人员名称地址ID1 张三 12 李四 23 王五 14 赵六 35 马七 3另外一组为地址信息: 地址ID 地址名称1 北京2 上海3 广州2、处理说明这里给出了一个很简单的例子,而且数据量很小,就这么用眼睛就能看过来的几行,当然,实际的情况可能是几十万上百万

2015-09-06 10:39:59 523

原创 Hadoop 实例8 Join讲解1: 获取员工所在部门信息

输出格式要求：员工编号，员工姓名，部门名称，部门编号 1、原始数据员工数据empno ename job mgr hiredate sal comm deptno loc7499 allen salesman 7698 1981-02-20 1600 300 30 7782 clark managers

2015-09-05 22:39:45 1209

原创 Hadoop 案例7-----日志分析：分析非结构化文件

1、需求：根据tomcat日志计算url访问了情况，具体的url如下，要求：区别统计GET和POST URL访问量结果为：访问方式、URL、访问量127.0.0.1 - - [03/Jul/2014:23:36:38 +0800] "GET /course/detail/3.htm HTTP/1.0" 200 38435 0.038182.131.89.195 - - [0

2015-09-05 20:17:55 1590

原创 Hadoop 案例6-----TopN问题：求最大的K个值并排序

1、需求分析orderid,userid,payment,productid [root@x00 hd]# cat seventeen_a.txt1,9819,100,1212,8918,2000,1113,2813,1234,224,9100,10,11015,3210,490,1116,1298,28,12117,1010,281,908,1818,9000,20[root@x0

2015-09-05 16:18:37 2687

原创 Hadoop 案例5-----求最大最小值问题

1、数据准备 [root@x00 hd]# cat eightteen_a.txt 10210391092001139028[root@x00 hd]# cat eightteen_b.txt 52308382.Mapper程序：package cn.edu.bjut.maxmin;import java.io.IOException;import org.apache.ha

2015-09-05 14:44:29 1928

原创 Hadoop 案例4----平均成绩

1、需求分析对输入文件中数据进行就算学生平均成绩。输入文件中的每行内容均为一个学生的姓名和他相应的成绩，如果有多门学科，则每门学科为一个文件。要求在输出中每行有两个间隔的数据，其中，第一个代表学生的姓名，第二个代表其平均成绩。2、原始数据 1）math：张三 88李四 99王五 66赵六 772）china：张三 78李四 89王五

2015-09-05 13:55:55 1499

原创 Hadoop 案例3----数据排序

“数据排序”是许多实际任务执行时要完成的第一项工作，比如学生成绩评比、数据建立索引等。这个实例和数据去重类似，都是先对原始数据进行初步处理，为进一步的数据操作打好基础。下面进入这个示例。1、需求描述对输入文件中数据进行排序。输入文件中的每行内容均为一个数字，即一个数据。要求在输出中每行有两个间隔的数字，其中，第一个代表原始数据在原始数据集中的位次，第二个代表原始数据。2、原始数据1）

2015-09-05 10:27:26 1472

原创 Hadoop 案例2----数据去重问题

1、原始数据 1）file1：2012-3-1 a2012-3-2 b2012-3-3 c2012-3-4 d2012-3-5 a2012-3-6 b2012-3-7 c2012-3-3 c 2）file2：2012-3-1 b2012-3-2 a2012-3-3 b2012-3-4 d2012-3-5 a2012-3-6 c2012-3-7 d2012-3-3 c 2.mapper：packag

2015-09-04 20:36:42 1375

原创 Hadoop 实例1---通过采集的气象数据分析每年的最高温度

1.原始数据分析0067011990999991950051507004888888889999999N9+00001+99999999999999999999990067011990999991950051512004888888889999999N9+00221+99999999999999999999990067011990999991950051518004888888889999999

2015-09-04 19:38:10 8206

原创 ubuntu设置命令行启动

推荐方法二方法1. sudo gedit /etc/default/grub将代码:GRUB_CMDLINE_LINUX_DEFAULT="quiet splash" 改为： GRUB_CMDLINE_LINUX_DEFAULT="text" 然后sudo update-grub方法2. sudo gedit /etc/default/grub设置:GRUB_CMD

2015-09-02 16:11:42 640

原创 Hadoop学习笔记（十九）---Hive Java Api

1。首先要启动hive的服务器：hive --service hiveserver &hive默认的端口为：100002.程序源代码为：import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.Statement;public class HiveTes

2015-09-01 20:34:46 542

原创 Hadoop学习笔记（十八）---Hive内部表，外部表，分区表，桶表

内部表： 1.创建表：create table stu(id int);2.插入数据：hive插入数据不能用insert语句，需要从外部文件中加载数据，比如创建一个文件stu_data，内容为：12345命令为（其中/home/hadoop/Public/stu_data为文件路径）：load data local inpath '/home/hadoop/Public/stu_data'

2015-09-01 20:00:01 760

原创 Hadoop学习笔记（十七）---Hive安装及配置

1.下载对应版本的hive，然后通过ftp上传到linux服务器，解压，然后改名，我是放在/usr/local目录下面。#给该文件可读可写可执行权限chmod 777 hive-0.10.0.tar.gz #移动到/usr/local目录下面cp hive-0.10.0.tar.gz /usr/local #解压该文件tar -xvf hive-0.10.0.tar.gz #将该文件改名为hi

2015-09-01 12:55:11 456

原创 Hadoop学习笔记（十六）---HBase JAVA API

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.hadoop.hbase.HTableDescriptor; im

2015-08-31 21:43:29 422

原创 java动态反射调用方法

比如说现在有一个类：package com.shangpin.model;class Function { public void print(String s, Integer i) { System.out.println("print:String+int:"+s+i); } public void print(String s1, String s2) {

2015-08-12 17:58:15 2601

原创数据结构学习笔记（二）---单链表

单链表中结点类型的描述如下：class LNode { Integer data; LNode next;}1.头插法建立单链表。从一个空表开始，生成新节点，并将读取到的数据存放到新节点的数据域中，然后将新节点插入到当前链表的表头，即头结点之后，如图所示：算法如下：public LNode createList1() { LNode l = new LNode(

2015-08-08 17:47:58 593

原创 JAVA编程思想学习笔记（二）---方法重载

在日常生活中，相同的词可以表达多种不同的含义，特别是含义之间的差别很小时，这种方式十分有用，你可以说“清洗衬衫”，“清洗车”，“清洗狗”等等，这就相当于我们在程序中定义了一个方法名“清洗”，我们可以传入不同的对象“衬衫”，“车”，“狗”等，而不是定义三个方法名“清洗衬衫”，“清洗车”，“清洗狗”，这样会显得很冗余。大多数程序语言（例如C）要求每个方法都会提供一个独一无二的标识符，例如

2015-08-08 14:38:30 518

原创 JAVA编程思想学习笔记（一）---一切都是对象

1.基本数据类型boolean类型所占存储空间的大小没有明确指定，仅定义能够取字面值true或false。基本类型具有的包装器类型，使得可以在堆中创建一个非基本对象，用来表示对应的基本类型。例如：char c = 'x';Character ch = new Character(c);或者这样用：Character ch = new Character('x');java SE5及以后的版本

2015-08-08 11:26:36 409

原创 Algorithms（二）---二叉树的相关问题

声明本文中所用的二叉树的节点结构定义如下：class Node { private Node left; private Node right; private int data; public Node(Node left, Node right, int data) { this.left = left; this.right = ri

2015-08-06 16:17:12 457

原创 Algorithms（一）---最大子数组和问题

1.You are given an array containing both positive and negative integers and required to find the sub-array with the largest sum (O(N) a la KBL). Write a routine for the above.题目描述：输入一个整形数组，数组里有正数也有负数

2015-08-05 16:11:18 820

原创数据结构（一）---线性表

1.从顺序表（数组）中找到最小值的元素。思想：遍历整个顺序表，查找最小值元素并记住，遍历结束就可以获得整个数组的最小值 public static int findMin(int[] arr) { if(0 == arr.length || null == arr) { //数组为空，终止操作 return -1; }

2015-07-30 22:34:55 430

原创 Hadoop学习笔记（十五）---Hbase shell命令的使用

1.启动hbase，进入hbase文件夹下面的bin文件夹，然后执行命令：hbase shell[root@hadoop0 bin]# hbase shellHBase Shell; enter 'help<RETURN>' for list of supported commands.Type "exit<RETURN>" to leave the HBase ShellVersion 0

2015-06-07 21:49:19 1985

原创 EL表达式学习笔记

如果你将一个字符串放进request里面，如果我们用jsp的知识来在前台取的数据，如下所示：<%= request.getAttribute("hello") %>但如果用EL表达式的话,就可以写成下面的样子：${hello }说明一下：el表达式的隐含对象为pageScope， requestScope， sessionScope， applicationScope如果未指定scope，它的搜索顺

2015-06-06 18:19:34 552

原创 Hadoop学习笔记（十四）---Hbase集群安装及配置

基本配置跟上一讲差不多，主要讲一下不同：1.在配置hbase-site.xml时，内容修改为如下：<configuration> <property> <name>hbase.rootdir</name> <value>hdfs://hadoop0:9000/hbase</value> </property> <property> <name>hbase.cluste

2015-06-06 14:12:08 417

原创 Hadoop学习笔记（十三）---Hbase的伪分布安装及配置

1.下载hbase，然后通过ftp上传到linux 2.复制到/usr/local/,然后解压，重命名hbase 3.执行命令vim /etc/profile,添加环境变量：export HBASE_HOME=/usr/local/hbaseexport PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HBASE_HOME/bin4.让环境变量立马生效：

2015-06-06 12:07:58 636

原创 Hadoop学习笔记（十二）---hadoop配置文件详解

关于conf/core-site.xml, conf/hdfs-site.xml,conf/mapred-site.xml的配置作如下说明：conf/core-site.xml配置如下：fs.default.name : NameNode的ip地址及其端口 hadoop.tmp.dir : 指定临时文件的目录conf/hdfs-site.xml配置如下:dfs.replication : 备份数据的

2015-06-04 17:32:45 541

原创 Hadoop学习笔记（十一）---hadoop集群安装及配置

前面我们已经学习了如何在伪分布式的模式下运行hadoop，下面我们介绍一下如何进行hadoop集群的安装机器配置：1.这里需要克隆3份虚拟机，一台master，两台slaves，虚拟机怎么克隆就不说了，自己百度2.对各个服务器进行网络配置，这个可以看第一讲3.修改机器名字：每台计算机都执行以下下面的代码：[root@hadoop0 hadoop]# vim /etc/sysconfig/netwo

2015-06-02 21:40:27 556

原创 Hadoop学习笔记(十)---自定义分区

所谓的自定义分区,就是规定reduce任务的数量,例如下面的数据:1 21 13 22 25 1假设上面的数据分别对应矩形的长跟宽,你会发现里面有正方形跟长方形,现在我们按照面积大小从大到小排序,一个文件输出的是长方形的数据,一个输出的是正方形的数据,这里我们就要自定义一个分区:package cn.edu.bjut.model;import org.apache.hadoop.io.Nul

2015-06-02 15:49:54 1483

原创 Hadoop学习笔记（九）---自定义排序

如果有下面的数，我们想按照每行两个数的乘积的大小来进行排序，就得如下操作：1 21 13 22 25 1先自定义排序的key，注意实现 WritableComparable这个接口：package cn.edu.bjut.model;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;

2015-06-02 14:18:22 445

原创 Hadoop学习笔记（八）---内置数据类型与自定义数据类型

例如我们要计算下面数据的同一电话号码（5,6,7,8位置）相同位置数据相加结果：1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 24 27 2481 24681 2001363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 24 27 2481 2

2015-06-01 22:19:32 1566

高清扫描版-Scala编程

空空如也