自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (3)
  • 收藏
  • 关注

原创 windows上通过vnc连接虚拟机中linux系统

windows上通过vnc连接虚拟机中linux系统

2014-07-26 10:11:23 32672

原创 浅谈对于RDD的认识

浅谈对于RDD的认识RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录之前的依

2014-07-23 09:01:44 7761 1

原创 hadoop-2.2.0+spark1.1.0安装过程

hadoop-2.2.0+spark1.1.0安装过程首先介绍一下整个过程中需要用到的一些软件虚拟机vmwareworkstation 10Linux版本 CentOS 6.4Jdk jdk-7u21-linux-i586.tar.gz终端SecureCRTHadoop2.2.0Spark1.1.0scala2.10.4 本人是采用在32位的windowns

2014-07-14 14:28:10 7201 1

原创 scala 及eclipse 插件安装

刚刚开始学习spark,需要用到scala,所以打算开始自学scala。

2014-07-14 12:20:41 13985

原创 kafka数据保存时间问题与kafka的性能测试

kafka数据保存时间问题。 Kafka删除检查主要有两种,任一达到要求即执行。(1) 按时间粒度,可设置分钟或者小时。达到时间进行处理。(2) 按文件大小限制,设置最大文件大小,达到上限即进行处理。可设置文件大小检查周期。kafka的性能测试kafka中有自带的性能测试代码,测试结果均来自kafka自带的测试代码 ,位于bin/kafka-producer-perf-test.sh。

2015-10-15 18:59:19 21799

原创 kafka介绍,安装以及简单的java调用kafka代码

kafka介绍,安装以及简单的java调用kafka代码

2015-10-01 20:50:53 27226 4

原创 zookeeper简介与安装过程

zookeeper是一个为分布式应用所设计的开源协调服务。设计目的是为了减轻分布式应用程序所承担的协调服务。zookeeper的设计目标:(1)简单化。(2)健壮性。(3)有序性。(4)速度优势。zookeeper安装步骤如下。

2015-10-01 19:26:36 802

原创 hadoop之mapper类

Mapper类有四个方法:(1)protected void setup(Context context)(2)protected void map(KEYIN key,VALUEIN value,Context context)(3)protected void cleanup(Context context)(4)public void run(Context context)setup()方法一般是在实例化时用户程序需要做的一些初始化工作(如打开一个全局文件,建立数据库链接等等)clean

2014-09-26 20:13:15 9028

原创 java调用R

环境:win7 32位 jdk1.7 R 2.15.0 java调用r主要有三种方式,rJava,rServer还有rCaller,这边主要讲用rJava调用rJava是一个R语言和Java语言的通信接口,通过底层JNI实现调用,允许在R中直接调用Java的对象和方法。由于rJava是底层接口,并使用JNI作为接口调用,所以效率非常高。在JRI的方案中,JVM直接通过内存直接加载RVM,调用过程性能几乎无损耗,因此是非常高效连接通道,是R和Java通信的首选开发包。

2014-09-10 10:19:54 18994

原创 Storm 简介

Nimbus :负责资源分配和任务调度, 把任务相关的元信息写入Zookeeper 相应目录。Supervisor :负责接受nimbus 分配的任务,启动和停止属于自己管理的worker 进程。Worker :运行具体处理组件逻辑的进程。Executor :运行spout/bolt 的线程Task : worker 中每一个spout/bolt 的线程称为一个task.Topology : storm 中运行的实时应用程序,消息在各个组件间流动形成逻辑上的拓扑结构。Spout :在一个topo

2014-08-20 10:30:05 1375

原创 spark应用程序的运行架构

spark应用程序运行架构介绍

2014-08-13 15:25:26 10186 1

原创 spark上安装mysql与hive

spark上安装mysql与hive

2014-08-07 20:13:55 7735

转载 RHadoop实践系列文章

发现一个很好的博客,主要讲R与hadoop的结合的文章RHadoop实践系列文章

2014-07-27 16:41:00 3122

转载 R语言和hadoop

问题1: Hadoop的家族如此之强大,为什么还要结合R语言?a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。c. 从a和b两点,我们可以看出,hadoop重点是全量数

2014-07-27 16:26:13 7378

转载 Storm on YARN

部署  http://hortonworks.com/kb/storm-on-yarn-install-on-hdp2-beta-cluster/

2014-07-27 08:51:50 1725

转载 基于Spark on Yarn的淘宝数据挖掘平台

pdf

2014-07-27 08:49:43 2535

原创 hadoop format之后datanode起不了解决方法

安装完hadoop集群之后,跑了一些数据,然后format了

2014-07-26 10:23:36 2819 1

原创 eclipse通过插件连接虚拟机里的hadoop集群

操作系统:windows 32位开发工具:eclipse 4.3Hadoop版本:hadoop2.2.0自行编译或者去网上下载相应的插件 hadoop-eclipse-plugin-2.2.0.jar​拷贝到eclipse的plugins目录下。​重启eclipse,打开windows->open perspective->other->map/redu

2014-07-24 15:59:56 3210

原创 常用简单linux shell命令

简单linux shell命令shutdown -h

2014-07-19 21:09:58 1019

原创 什么是spark

Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。

2014-07-17 15:23:33 1098

原创 scala

什么是scala?scala,是scalable

2014-07-17 15:07:37 830

原创 IDEA安装以及打包过程

(前提已经安装jdk配置好环境变量,还有已安装好scala。同时需要spark-assembly-1.0.0-hadoop2.2.0.jar包,该jar包在spark/lib目录下)​官网下载13.1.3 ultimate版本  http://www.jetbrains.com/idea/download/企业版本试用期为30天,可以去网上搜注册机。这边提供一个name和key

2014-07-17 14:44:10 6208

原创 scala学习(三)

高阶函数Scala作为一门“函数式编程语言”,函数是一个值,能被传递和操作  头等函数    函数是一个值,在Scala中,函数能作为参数进行传递,函数能调用满足参数要求的不同的函数作为参数匿名函数    不命名的函数,匿名函数的作用域非常小,往往只在参数中使用,其作用范围即是调用该匿名函数参数的函数体柯里化    柯里化是指将接受两个参数的函数变

2014-07-15 18:15:03 792

原创 scala学习(二)

类(class)   类是对象的模板,通过构造类,能够使用new关键字声明一系列同结构的对象对象(object)   除了使用类构造对象模板,可以使用object构造单例对象继承继承是类的拓展特质   一个类只能继承自一个父类,但可以由多个特质拓展而成类定义    类成员主要包括字段(val跟var)、方法与函数(def),但Scala禁止使用同样的名

2014-07-15 10:15:33 2936

原创 scala学习笔记(一)

声明与定义val,常量声明var,变量声明def,函数声明type,类型声明class,类声明object,对象声明ScaLa没有任何操作符,所有的操作符运算都是对方法(函数)的调用标识符与命名首字符为字母,后续字符任意字母和数字,可后接下划线_首字符为操作符,后续字符为任意操作符以反引号“`

2014-07-14 17:01:18 1230

编译原理复习资料

编译原理复习资料,可用于期末复习编译原理课程

2013-01-21

统一建模语言基础知识

统一建模语言基础知识,UML简介 类图 顺序图 状态图

2012-03-09

深度搜索邻接矩阵深度搜索邻接矩阵

template <class T, class E> class Graph; template <class T, class E> class Graphmtx;

2010-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除