hadoop2015-CSDN博客

原创大数据的成长历程

大数据是用scala语言，和java有些不同又比java强大，省去了很多繁琐的东西，scala中的的接口用trait来定义，不同于java的接口，trait中可以有抽象方法也可以有不抽象方法。scala中的方法中还可以定义方法，这在java中是从来没有的。大数据未来几年发展的重点方向，大数据战略已经在十八届五中全会上作为重点战略方向，中国在大数据方面才刚刚起步，但是在美国已经产生了上千亿的

2015-11-10 10:08:05 654

原创 Cloudera-Manager修改集群的IP

1、业务需求说明：由于公司网络进行了整改，随之而来的就是对应的ip网段发生了变化，其中我的hadoop的集群各主机的ip也相应的发生了改变，因此需要对各主机进行修改ip。2、具体操作：　　首先停止cdh各组件的服务，修改各主机的ip。修改完后，本以为完事儿了，启动Cloudera Management Service时，发现启动失败，无法启动。那么问题就来了，如何通过cloudera-

2015-08-31 18:36:10 1410

原创 Oracle高效sql语句整理

业务需求说明：由于之前公司后台APP端有一个document表，该表中包含了所有的信息，新的需求就是通过该表创建出一个新的用户表（usertable）和一个档案表（document，该表只保留原document的部分字段）。ps：原document表的数据有25万条的数据，因此在处理的时候，需要考虑到性能的问题。首先当然是对两个表进行字段的设计，然后是再将原document表中的数

2015-08-25 10:36:11 488

我们知道快递排序大部分的版本都是递归的方式来实现的：通过Pritation来实现划分，并递归实现前后的划分。由于同学上次百度二面面试官问起快速排序的非递归的实现方式，当时同学不会，因为我们大部分看到的都是递归方式来实现快速排序。并没有关注非递归的方式。但是仔细想想也是可以做的，因为递归的本质是栈，因此我们非递归实现的过程中，借助栈来保存中间变量就可以实现非递归了。在这里中间变量也就是通过Prita

2015-08-24 11:30:13 402

原创 Win7下通过eclipse远程连接CDH集群来执行相应的程序以及错误说明

最近尝试这用用eclipse连接CDH的集群，由于之前尝试过很多次都没连上，有一次发现Cloudera Manager是将连接的端口修改了，所以才导致连接不上CDH的集群，之前Apache hadoop采用的端口是9000和9001，而Cloudera Manager采用的端口是8020端口，于是通过eclipse中的MapReduce选项卡，edit一个选项连接，发现连上了。这给我带来了一些意外

2015-08-24 11:30:08 550

原创获取hadoop的源码和通过eclipse关联hadoop的源码

一、获取hadoop的源码　　首先通过官网下载hadoop-2.5.2-src.tar.gz的软件包，下载好之后解压发现出现了一些错误，无法解压缩，因此有部分源码我们无法解压，因此在这里我讲述一下如何通过maven来获取完整的源码：需要说明的是，在使用maven的时候，需要先安装jdk，protoc ，如果没有安装可以参考http://www.cnblogs.com/ljy2013/

2015-08-24 11:30:05 346

原创 Java中的集合Collection以及对应的子类list类

java Collection List

2015-08-21 12:24:56 3554

原创 Java中的Scanner类和String类

1:Scanner的使用(了解) (1)在JDK5以后出现的用于键盘录入数据的类。 (2)构造方法： A:讲解了System.in这个东西。它其实是标准的输入流,对应于键盘录入 B:构造方法 InputStream is = System.in; Scanner(InputStrea

2015-08-21 08:48:55 464

原创 java的eclipse操作和常用类Object的使用

1、eclipse的快捷键：（1）alt + / 内容辅助。　　如：main+alt + / 会出现完整的main方法。　　　　syso+alt+ / 会输出。　　　　如编写某个方法时，只需写入方法名 + alt+/ 就会自动生成相应的方法。（2）ctrl+shift+f 代码格式化（3）ctrl+shift+o 导入包（4）注释　　ctrl+/ 单行

2015-08-21 08:48:51 574

原创如何利用Cloudera Manager来手动安装parcel包

1、问题的描述：　　当你利用Cloudera Manager部署了CDH的集群后，也许随着你的业务需求，你需要对你的就去哪做一些优化，或者扩展之类的，这个时候你可能需要下载安装一些组件。例如，我最近在阅读Cloudera 官方文档的是，看到有一节的内容说到Performance Management的时候，发现为了提升集群的性能，经常会将数据进行压缩，此时就会需要添加一些parcel的安装。

2015-08-21 08:48:46 2475

原创 java.io.IOException: Too many open files

1、描述：　　每日一样，例行打开hadoop集群的cloudera manager的管理界面。发现出现了多个bad health的服务。那么出现的这个问题就是查看该服务运行的日志，对应的该服务当中，会包含相应的角色，其中，查看日志的时候可以看每一个角色的运行日志。通过查看日志，发现HBase出现了java.io.IOException: Too many open files 错误的问题。

2015-08-21 08:48:42 595

原创 java中的包以及内部类的介绍

1:形式参数和返回值的问题(理解) (1)形式参数：类名：需要该类的对象抽象类名：需要该类的子类对象接口名：需要该接口的实现类对象 (2)返回值类型：类名：返回的是该类的对象抽象类名：返回的是该类的子类对象接口名：返回的是该接口的实现类的对象 (3)链式编程对象.方法1

2015-08-21 08:48:39 347

原创 HDFS中的checkpoint（检查点）的问题

1、问题的描述由于某种原因，需要在原来已经部署了Cloudera CDH集群上重新部署，重新部署之后，启动集群，由于Cloudera Manager 会默认设置dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns分别是1个小时和1000000。只要达到这两个条件之一，secondarynamenode会执行checkpoint操

2015-08-21 08:48:36 6685 1

原创 HDFS中Java的API使用测试

import java.io.IOException;import java.util.Arrays;import java.util.Date;import java.util.Scanner;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;im

2015-08-21 08:48:34 426

原创利用ClouderaManager启动HBase时，出现 master.TableNamespaceManager: Namespace table not found. Creating...

1、错误描述：　　出现上述这个错误的原因是我之前已经安装了Cloudera Manager中的CDH，其中添加了所有的服务，当然也包含HBase。然后重新安装的时候，就会出现如下错误：　　Failed to become active master，org.apache.hadoop.hbase.TableExistsException:hbase:namespace.根据上面错误的我

2015-08-21 08:48:31 878

原创 MapReducer程序调试技巧

写过程序分布式代码的人都知道，分布式的程序是比较难以调试的，但是也不是不可以调试，对于Hadoop分布式集群来说，在其上面运行的是mapreduce程序，因此，有时候写好了mapreduce程序之后，执行结果发现跟自己想要的结果不一样，但是有没有报错，此时就很难发现问题，查找问题的方法之一就是对程序进行调试，跟踪代码的执行，找出问题的所在。那么对于Hadoop的Mapreduce是如何进行调试的呢

2015-08-21 08:48:26 421

原创 Java中多态、抽象类和接口

1:final关键字(掌握) (1)是最终的意思，可以修饰类，方法，变量。 (2)特点： A:它修饰的类，不能被继承。 B:它修饰的方法，不能被重写。 C:它修饰的变量，是一个常量。 (3)面试相关： A:局部变量 a:基本类型值不能发生改变 b:引用类型地址值不能发生改变，但是对象的内容是可以改变的 B:初始化时机 a:只能初始化一次。 b:常见的给值定义的

2015-08-21 08:48:23 305

原创 Java中文档制作与继承

1:如何制作帮助文档(了解) (1)写一个类 (2)加入文档注释 (3)通过javadoc工具生成即可 javadoc -d 目录 -author -version ArrayTool.java2:通过JDK提供的API学习了Math类(掌握) (1)API(Application Programming Interface) 应用程序编程接口(帮助文档) (2)如何使用呢? 请参照

2015-08-21 08:48:21 299

原创 Java中面向对象的详解

1:成员变量和局部变量的区别(理解) (1)在类中的位置不同成员变量：类中方法外局部变量：方法定义中或者方法声明上 (2)在内存中的位置不同成员变量：在堆中局部变量：在栈中 (3)生命周期不同成员变量：随着对象的创建而存在，随着对象的消失而消失局部变量：随着方法的调用而存在，随着方法的调用完毕而消失 (4)初始化值不同成员变量：有默认值局部变量：没有默认值，必须定义

2015-08-21 08:48:18 321

原创 Java中二维数组与面向对象

1:二维数组(理解) (1)元素是一维数组的数组。 (2)格式： A:数据类型[][] 数组名 = new 数据类型[m][n]; B:数据类型[][] 数组名 = new 数据类型[m][]; C:数据类型[][] 数组名 = new 数据类型[][]{{...},{...},{...}}; D:数据类型[][] 数组名 = {{...},{...},{...}}; (3)案例(掌握):

2015-08-21 08:48:16 374

原创 Java中方法与数组

1:方法(掌握) (1)方法：就是完成特定功能的代码块。注意：在很多语言里面有函数的定义，而在Java中，函数被称为方法。 (2)格式：修饰符返回值类型方法名(参数类型参数名1,参数类型参数名2...) { 方法体语句; return 返回值; } 修饰符：目前就用

2015-08-21 08:48:13 246

原创 Java选择结构、循环结构

1:switch语句(掌握) (1)格式： switch(表达式) { case 值1: 语句体1; break; case 值2: 语句体2; break;

2015-08-21 08:48:11 442

原创 Java运算符及顺序、选择结构

1:运算符(掌握) (1)算术运算符 A:+,-,*,/,%,++,-- B:+的用法 a:加法 b:正号 c:字符串连接符 C:/和%的区别数据做除法操作的时候，/取得是商，%取得是余数 D:++和--的用法

2015-08-21 08:48:08 471

原创 Java基础语法

1:关键字(掌握) 　　(1)被Java语言赋予特定含义的单词　　(2)特点：　　　　全部小写。　　(3)注意事项：　　　　　　A:goto和const作为保留字存在。　　　　　　B:类似于Notepad++这样的高级记事本会对关键字有特殊颜色标记2:标识符(掌握) 　　(1)就是给类，接口，方法，变量等起名字的字符序列　　(2)组成规则：　　　　A:英文大小写字母　

2015-08-21 08:48:06 168

原创 CDH上执行WordCount的意外和收获

前面将Cloudera Manager安装到集群上的一台主机后，并通过Cloudera manager安装了hadoop-2.6.0-CDH5.4.4。今日来测试安装的集群是否很够很好的执行mapreduce任务。测试的方法就是测试WordCount的例子。1、在讲测试用例之前，我们首先为系统当前用户在HDFS中创建一下工作目录，并服务相应的权限。1.1、由于我安装的时候是用的root用户

2015-08-21 08:48:04 604

原创 windows下将磁盘脱机，并在"我的电脑"下显示

方案一: .右键单击"我的电脑"。 2.打开：管理-磁盘管理。 3.在右边出现的磁盘分区里，你想隐藏的分区上右键单击“更改驱动器名和路径”。 4.出现一个对话框，点击“删除”。 5.出现一个确定对话框，点击“是”。就ok。如果你要找回隐藏的分区就在4的对话框点添加就行了方案二: 运行gpedit.msc打开组策略编辑器并依次展开至用户配置--管理模板--windows组件--windows资

2015-08-21 08:48:01 568

原创 linux中/etc/fstab文件删除或修改了，导致系统无法启动

在linux中，/etc/fstab文件是磁盘挂载的问题，若该文件不小心给修改了，或者被删除了，那么就会导致系统无法重启。因为/etc/fstab文件是记录磁盘挂载的信息，若该文件出现了问题，那么对应的主目录（/）和（/boot）以及swap的磁盘将无法挂载，所以这个文件对于linux系统来说是相当重要的。　　我犯的错误是：我在对hadoop集群进行文件配置的时候，在一台主机上对/etc/fs

2015-08-21 08:47:57 3173

原创 Coudera-Manager/CDH的安装和部署

由于之前部署的集群采用的是用apache hadoop的方式来实现，但是考虑到运维的成本问题，下面将apache hadoop转换成cloudera cdh。下面主要讲解一下cloudera cdh的安装过程：Cloudera公司官方网站上介绍了三种安装方式：（官网：http://hpdm.siat.ac.cn/static/help/topics/installation_installat

2015-08-21 08:47:54 267

原创 Linux访问Windows磁盘实现共享

业务需求说明：公司在部署hadoop集群和DB server与SAN存储，公司的想法是前端通过DB Server能够将非结构化的数据能放进SAN存储当中，而hadoop集群也能够访问这个SAN存储。因此需要在SAN磁盘阵列中开辟一个共享区域，这个区域技能让DB server能够访问，也能够让hadoop集群访问。于是我们采用的方案是：1、首先，通过DB server将SAN存储中开辟一个10T

2015-08-21 08:47:52 1332

原创 Coudera-Manager/CDH的安装和部署

由于之前部署的集群采用的是用apache hadoop的方式来实现，但是考虑到运维的成本问题，下面将apache hadoop转换成cloudera cdh。下面主要讲解一下cloudera cdh的安装过程：Cloudera公司官方网站上介绍了三种安装方式：（官网：http://hpdm.siat.ac.cn/static/help/topics/installation_installat

2015-08-21 08:47:50 405

原创 Linux访问Windows磁盘实现共享

业务需求说明：公司在部署hadoop集群和DB server与SAN存储，公司的想法是前端通过DB Server能够将非结构化的数据能放进SAN存储当中，而hadoop集群也能够访问这个SAN存储。因此需要在SAN磁盘阵列中开辟一个共享区域，这个区域技能让DB server能够访问，也能够让hadoop集群访问。于是我们采用的方案是：1、首先，通过DB server将SAN存储中开辟一个10T

2015-08-21 08:47:48 518

原创 linux下文件系统类型的学习

1、　以超级用户权限登陆Linux，进入 /lib/modules/2.6.32--504.el6.x86_64/kernel/fs目录执行 ls 命令（不同Linux发行版本的Fs目录有些不同你可以用查找FS文件夹的方法找到它）。如下图所示：这里我们对最常用的几个文件系统的发展情况和优缺点作详细介绍：ext、ext2、ext3、jsf、、xfs、ReiserFS2、ext是第一个

2015-08-21 08:47:45 373

原创 linux下文件系统的介绍

一、linux文件系统的目录结构目录描述 /根目录/bin做为基础系统所需要的最基础的命令就是放在这里。比如 ls、cp、mkdir等命令；功能和/usr/bin类似，这个目录中的文件都是可执行的，普通用户都可以使用的命令。/bootLinux的内核及引导系统程序

2015-08-21 08:47:43 252

原创 linux下磁盘进行分区、文件系统创建、挂载和卸载

任务的原因：由于，刚购买来的服务器需要将磁盘挂载到操作系统上，为了挂载磁盘首先要对磁盘进行分区，然后进行文件系统的创建，最后将磁盘挂载到操作系统上的某个目录。MBR(Master Boot Record)是传统的分区机制，应用于绝大多数使用BIOS的PC设备。1.MBR支持32bit和64bit系统2.MBR支持分区数量有限3.MBR只支持不超过2T的硬盘，超过2T的硬盘只能使用2

2015-08-21 08:47:40 999

原创 NTP服务器的配置

安装cloudera Manager的时候，必须要求集群的主机之间时间同步，搭建一个NTP服务器的思路是，首先通过一台主机master与外网进行时间同步，然后其他的slaver主机与主机master进行时间同步。1、所有节点配置NTP服务集群中所有主机必须保持时间同步，如果时间相差较大会引起各种问题。具体思路如下：master节点作为ntp服务器与外界对时中心同步时间，随后对所有da

2015-08-21 08:47:37 815

原创 linux修改系统时间和linux查看时区、修改时区的方法

一、查看和修改Linux的时区1. 查看当前时区命令： "date -R"2. 修改设置Linux服务器时区方法 A命令： "tzselect"方法 B 仅限于RedHat Linux 和 CentOS命令： "timeconfig"方法 C 适用于Debian命令： "dpkg-reconfigure tzdata"3. 复制相应的时区文件，替换系统时区文件；或者创建

2015-08-21 08:47:35 343

原创 Error:No suitable device found: no device found for connection "System eth0"

环境描述：在虚拟机VM中，centos6.6的操作系统故障说明：vi /etc/sysconfig/network-scripts/ifcfg-eth0在修改虚拟机的ip地址之后，而在使用"service network restart"重启网卡时,出现错误： Error:No suitable device found: no device found for connect

2015-08-21 08:47:33 436

原创修改Oracle数据库的字符集为UTF-8

1、改客户端字符集：通过WINDOWS的运行菜单运行Regedit，修改注册表Start -> Run -> Rededit Under registry Editor - > HKEY_LOCAL_MACHINE -> SOFTWARE ->ORACLE->KEY_XE->RIGHT WINDOW DOUBLE CLICK NLS_LANG -> CHANGE VALUE TO "AME

2015-08-21 08:47:30 738

原创 yum源的更新问题

我们知道在linux下安装软件的方法有多种多样，其中利用yum的方式来安装较为简单，但需要等待的时间比较长。下面介绍一下如何更新yum的源的问题。首先需要保证的是linux的机器能上网。然后按照下面的步骤进行即可。进入yum配置文件目录：cd /etc/yum.repos.d/备份配置文件：mv CentOS-Base.repo CentOS-Bas

2015-08-21 08:47:28 421

原创 Spark的编译

由于Spark的运行环境的多样性，如可以运行在hadoop的yarn上，这样就必须要对Spark的源码进行编译。下面介绍一下Spark源码编译的详细步骤：1、Spark的编译方式：编译的方式可以参考官网：https://spark.apache.org/docs/latest/building-spark.html　　Spark的源码编译有三种方式：　　（1）SBT（简单构建工具）方式

2015-08-21 08:47:26 367

学习opencv的电子版

sift算法的实现

人体运动检测

VC++编程实例

Adaptec_DVSoft_codec

空空如也