自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jack‘s bolg

时人不识凌云木,直待凌云始道高

  • 博客(89)
  • 收藏
  • 关注

转载 Linux关机命令详解

在linux下一些常用的关机/重启命令有shutdown、halt、reboot、及init,它们都可以达到重启系统的目的,但每个命令的内部工作过程是不同的。 Linux centos重启命令: 1、reboot 2、shutdown -r now 立刻重启(root用户使用) 3、shutdown -r 10 过10分钟自动重启(root用户使用) 4、shutdow

2014-09-25 23:54:51 728

转载 centos 6 图形界面的关闭与开启

http://blog.csdn.net/tspangle/article/details/18255647用虚拟机来跑的 Centos 6,本本的硬件条件有限,决定关闭图形界面切到root用户下,su rootpassword1, 关闭图形界面:init 3 关闭图形界面(XServer服务也会关闭)2. 开启图

2014-09-25 22:07:10 1884

原创 找工作面试备忘录

Data StructureJava1.Java HashMap的工作原理2.Java应用程序中的内存泄漏及内存管理3.Java垃圾回收精粹Hadoop

2014-04-08 16:54:33 1501

原创 Maven pom.xml

4.0.0 code.jack.hadoop hadoopcode 2.2.0 hadoopcode org.apache.hadoop hadoop-client 2.2.0

2014-03-05 21:04:02 830

原创 GraphX中Pregel单源点最短路径

GraphX中的单源点最短路径例子,使用的是类Pregel的方式。核心部分是三个函数:1.节点处理消息的函数  vprog: (VertexId, VD, A) => VD (节点id,节点属性,消息) => 节点属性2.节点发送消息的函数 sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId,A)]   (边元组) => Iterato

2014-03-04 21:54:27 7091 1

原创 Spark with Hadoop InputFormat

基于Yarn的,使用新的API,SBT需要添加,默认是用的1.0.4的clientlibraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.2.0"代码如下package myclassimport org.apache.spark.SparkContextimport org.apache.hadoop.

2014-02-28 10:51:23 6947 2

原创 SparkTC :Transitive closure on a graph(图中节点的可达性)

思路:1.生成数据(from,to),为初试可达节点对数目(同时也是基本的节点跳转规则)2.对数据需要做一次链接操作,(类似于一次矩阵乘)3.将链接操作的结果提取成(from,to)形式,与当前的可达节点对做并集,得到最新的当前可达节点对数目3.比较当前可达节点对的数量与上一轮节点对数量4.若没有增加,则停止;否则,跳转至2继续执行可能还是比较晕乎乎,看实验数据

2014-02-27 20:50:47 3745

原创 Vmware Workstation 10.0.1 will not compile with kernel 3.13.2-200.fc

解决fedora内核更新后VMware编译不通过下载patch需要代理http://www.spinics.net/lists/fedora-testing/msg120166.html

2014-02-27 19:28:03 1050

原创 KMeans on Spark

思路:1.随机生成数据2.随机生成K个聚类中心3.计算每个点所属的类别4.计算新的聚类中心5.比较聚类中心的变化情况,大于阈值跳转至3;小于阈值停止。package myclassimport java.util.Randomimport org.apache.spark.SparkContextimport SparkContext._import org.ap

2014-02-27 11:33:53 5708 4

原创 Spark PageRank

如果不考虑出度为0的节点情况,方法很easy,参考官方的code。但是考虑出度为0的节点的时候,会出现各种问题先贴上代码,再说明package myclassimport org.apache.spark.SparkContextimport SparkContext._import scala.collection.mutable.ArrayBufferimport scala.c

2014-02-23 16:23:48 10054

原创 第一个Spark On Yarn程序

环境hadoop 2.2.0 + Scala 2.10.3 + Spark 0.9 + Idea 13单机伪分布式的YarnIdea SBT插件使用:建立SBT项目,然后在Setting中设置SBT autoimport 和 auto 创建目录结构build.sbtname := "WordCount"version := "1.0"scalaVersion :

2014-02-22 14:42:52 13048 5

转载 Centos Fedora 编译R

首先服务器系统版本为centos5.6,R版本为2.13.2。下面是安装步骤:    1、解压文件:tar –zvxf R-2.13.2.tar.gz    2、进入R源文件目录:cd R-2.13.2    3、执行./configure命令,提示错误信息为“configure: error: No F77 compiler found”,执行命令yum install

2014-02-15 19:30:11 2000

转载 并行逻辑回归

详解并行逻辑回归来源新浪博客| 作者冯扬摘要:Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。这里是:“可能性”而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。编者按:回归其实就是对已知公式的未知参数进行估计,Logistic regre

2014-02-15 11:13:48 1972

转载 Effective Scala

Effective ScalaMarius Eriksen, Twitter [email protected] (@marius)[translated by hongjiang(@hongjiang)]Table of Contents序言格式化: 空格, 命名, Imports, 花括号, 模式匹配, 注释类型和泛型: 返回类型注解(annotati

2014-02-15 08:48:48 1242

原创 Scala School 笔记(五)--高级类型

--------------待续

2014-02-14 17:04:20 4243

原创 Scala School 笔记(四)--类型和多态基础

Scala有秩1多态性粗略地说,这意味着在Scala中,有一些你想表达的类型概念“过于泛化”以至于编译器无法理解。假设你有一个函数def toList[A](a: A) = List(a)你希望继续泛型地使用它:def foo[A, B](f: A => List[A], b: B) = f(b)这段代码不能编译,因为所有的类型变量只有在调用上下文中才被固定。即

2014-02-14 17:03:00 3586

原创 Scala School 笔记(三)--模式匹配与函数组合

函数组合让我们创建两个函数:scala> def f(s: String) = "f(" + s + ")"f: (String)java.lang.Stringscala> def g(s: String) = "g(" + s + ")"g: (String)java.lang.Stringcomposecompose 组合其他函数形成一个新的函数 f(g

2014-02-14 15:01:46 5790

原创 Scala School 笔记(二)--集合

----------------------待续

2014-02-14 11:06:58 1140

原创 Scala School 笔记(一)--基础

只记录若干觉得有必要的内容部分应用(Partial application)你可以使用下划线“_”部分应用一个函数,结果将得到另一个函数。Scala使用下划线表示不同上下文中的不同事物,你通常可以把它看作是一个没有命名的神奇通配符。在{ _ + 2 }的上下文中,它代表一个匿名参数。你可以这样使用它:scala> def adder(m: Int, n: Int)

2014-02-14 11:02:58 2227

原创 pro git 学习<二>

Git分支何谓分支在 Git 中提交时,会保存一个提交(commit)对象,它包含一个指向暂存内容快照的指针,作者和相关附属信息,以及一定数量(也可能没有)指向该提交对象直接祖先的指针。Git 中的分支,其实本质上仅仅是个指向 commit 对象的可变指针。Git 会使用 master 作为分支的默认名字。在若干次提交后,你其实已经有了一个指向最后一次提交对象的 m

2014-01-07 21:34:22 768

原创 pro git 学习<一>

配置git config/etc/gitconfig文件:系统中对所有用户都普遍适用的配置。若使用 git config 时用 --system 选项,读写的就是这个文件。~/.gitconfig文件:用户目录下的配置文件只适用于该用户。若使用 git config 时用 --global 选项,读写的就是这个文件。当前项目的 git 目录中的配置文件(也就是工作目录中的 .git

2014-01-06 11:23:47 680

转载 Ubuntu 编译安装 hadoop 2.2.0

本文属于转载,打patch部分是自己遇到的问题转自:http://blog.changecong.com/2013/10/ubuntu-%E7%BC%96%E8%AF%91%E5%AE%89%E8%A3%85-hadoop-2-2-0/编译环境OS: Ubuntu 12.04 64-bithadoop version: 2.2.0Java: Jdk1.7.0

2013-12-11 20:49:33 2829

转载 centos 更改 hostname

1.临时修改主机名显示主机名:zhouhh@zzhh64:~$ hostnamezhh64修改主机名:zhouhh@zzhh64:~$ sudo hostname zzofszhouhh@zzhh64:~$ hostnamezzofs看一下$PS1zhouhh@zzhh64:~$ echo $PS1/[/e]0;/u@/h: /w/a

2013-12-10 09:19:23 742

转载 通过dsh批量管理Linux服务器

目前在企业网络中越来越多的出现Linux服务器,而如何方便高效的管理大量的Linux服务器是系统管理员非常关心的一个问题。现在有大量的开源管理工具,可以实现这样的管理工具,现在给大家介绍一个通过命令行有效地管理大量Linux的工具---dsh。dsh是专为在远程系统上运行Shell命令设计的,通过dsh可以简化对大量计算机的操作。dsh命令语法如下:dsh [-m machinenam

2013-11-29 21:54:08 3698

转载 Linux dsh工具安装

First and foremost, you need to install dsh. The downloads page for the project is a nightmare (http://www.netfort.gr.jp/~dancer/software/downloads/list.cgi), but you basically want the latest versi

2013-11-29 21:48:56 3216

转载 zookeeper 集群安装(单点与分布式成功安装)摘录

http://www.blogjava.net/hello-yun/archive/2012/05/03/377250.htmlZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenan

2013-11-27 22:25:23 857

转载 分布式服务框架 Zookeeper -- 管理分布式环境中的数据

http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/简介Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper

2013-11-27 21:48:19 701

转载 ZooKeeper学习

转自:http://agapple.iteye.com/blog/1111377背景   前段时间看了S4流计算引擎,里面使用到了zookeeper进行集群管理,所以也就花了点时间研究了下zookeeper,不求看懂所有源码,但求了解其实现机制和原理,清楚其基本使用。这也是为后续hadoop,gridgain的分布式计算的产品。学习首先就是收集一些前人的一些学习资料和总结内

2013-11-27 21:26:21 1093

原创 Apache Hama配置

hama-site.xml bsp.master.address 192.168.0.1:40000 The address of the bsp master server. Either the literal string "local" or a host[:port] (where host is a name or IP address

2013-11-27 11:08:29 1532

转载 Shell脚本学习-命令行参数处理

命令行参数处理转自http://blog.chinaunix.net/uid-21505614-id-2173248.html必须要要知道几个变量,    *    $0 :即命令本身,相当于C/C++中的argv[0]    *    $1 :第一个参数.    *    $2, $3, $4 ... :第2、3、4个参数,依次类推。    *    $#  参数

2013-11-27 10:57:31 27419

原创 Java技巧

正则表达式 String input = "[1-(2,3)][4-(5,6)]"; Pattern pattern = Pattern.compile("\\[(\\d+)-\\((\\d+),(\\d+)\\)\\]"); Matcher matcher = pattern.matcher(input); while (matc

2013-11-24 19:49:34 764

原创 data-intensive text processing with mapreduce-EM Algorithms for Text Processing

EM Algorithms for Text Processing

2013-11-16 20:21:10 996

原创 data-intensive text processing with mapreduce-Graph Algorithms

Graph Algorithms

2013-11-16 20:20:31 3062

原创 data-intensive text processing with mapreduce-Inverted Indexing for Text Retrieval

Inverted Indexing for Text Retrieval

2013-11-16 20:19:33 1156

原创 Linux 命令收集

挂载mount /dev/sda5 /home/jack/data

2013-11-15 20:40:21 523

原创 Haoop tricks(自用)

配置core-site.xml fs.default.name hdfs://192.168.0.1:9000 The name of the default file system. Either the literal string "local" or a host:port for NDFS.

2013-11-12 10:25:32 651

原创 Hadoop命令汇总(自用)

管理篇执行篇

2013-11-12 10:07:01 681

原创 data-intensive text processing with mapreduce-MapReduce Algorithm Design

MapReduce Algorithm Designin-mapper combiningMain idea:通过借用Map手动实现聚集,在Mapper中实现Combiner。Example:WordCountReason:1.Hadoop的Combiner机制不管key的分布,都会执行combine,如很多key都只有唯一的value与他对应,则Combi

2013-11-10 21:43:06 1314

转载 Hadoop 二次排序 Secondary Sort

转自:http://blog.csdn.net/heyutao007/article/details/5890103mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变。这个例子中定义的map和reduce如下,关键是它对输入输出类型的定义:(java泛型编程) public static class Map extends Mapper publ

2013-10-10 00:04:47 5512 2

原创 深入理解java虚拟机

第二章:Java内存区域与内存溢出异常运行时数据区域程序计数器每个线程都需要一个独立的程序计数器,各条线程之间计数器互不影响,为“线程私有”的内存。如果线程正在执行一个Java方法,计数器是正在执行的虚拟机字节码指令的地址;如果是Natvie方法,计数值为空。Java虚拟机栈也是线程私有,生命周期与线程相同。每个方法被执行都会创建一个栈帧用于存储局部变量表、

2013-09-30 16:13:32 960

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除