自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 问答 (1)
  • 收藏
  • 关注

转载 GraphX入门介绍

GraphX原型论文GraphX是 Spark中用于图(e.g., Web-Graphs and Social Networks)和图并行计算(e.g., PageRank and Collaborative Filtering)的API,可以认为是GraphLab(C++)和Pregel(C++)在Spark(Scala)上的重写及优化,跟其他分布式 图计算框架相比,GraphX最大

2016-07-14 15:59:45 1257

转载 Spark核心RDD理解

与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Unified Programming Abstraction)。这正是Spark这朵小火花让人着迷的地方。

2016-07-14 15:30:31 397

原创 Spark RDD API详解(一) Map和Reduce

RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍S

2016-07-11 14:58:44 285

原创 java来合并两个对象

merge两个对象,互补null,以新对象为主,代码如下public static Object merge(Objectmaster, Object follow){if(master ==null && follow ==null)returnnull;else if(master == null && null != f

2016-04-28 14:20:21 6482

原创 java与hbase交互

import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.

2016-04-19 18:09:59 278

转载 Storm源码浅析之topology的提交

最近一直在读twitter开源的这个分布式流计算框架——storm的源码,还是有必要记录下一些比较有意思的地方。我按照storm的主要概念进行组织,并且只分析我关注的东西,因此称之为浅析。        一、介绍    Storm的开发语言主要是Java和Clojure,其中Java定义骨架,而Clojure编写核心逻辑。源码统计结果:     180 text files.

2016-04-15 10:32:52 356

转载 strom中worker、task、spout/bolt、executor、component的关系

转载:http://blog.csdn.net/fzhmoive/article/details/38753135谢谢分享。storm学习网站:http://chenlx.blog.51cto.com/4096635/d-1/p-1整理一下网上有关worker、task、spout/bolt、executor、component之间的关系。Storm

2016-04-15 09:28:28 499

原创 Storm中Spout和Bolt的生命周期

1、在定义Topology实例过程中,定义好Spout实例和Bolt实例2、在提交Topology实例给Nimbus的过程中,会调用TopologyBuilder实例的createTopology()方法,以获取定义的Topology实例。在运行createTopology()方法的过程中,会去调用Spout和Bolt实例上的declareOutputFields()方法和getCompone

2016-04-14 18:31:16 3207

转载 TopologyBuilder

TopologyBuilder是构建拓扑的类,用于指定执行的拓扑。拓扑底层是Thrift结构,由于Thrift API非常冗长,使用TopologyBuilder可以极大地简化建立拓扑的过程。 TopologyBuilder的公有方法如图3.1所示。创建和提交拓扑的过程如下:首先,使用new关键字创建一个TopologyBuilder对象,然后调用setSpout方

2016-04-14 18:11:16 4507

原创 storm分组总结

InputDeclarer接口定义了不同的流分组方式。每当TopologyBuilder的setBolt方法被调用就返回该对象,用于声明一个Bolt的输入流,以及这些流应该如何分组。InputDeclarer接口的完整定义代码如下:public interface InputDeclarer {// 字段分组public T fieldsGrouping(String co

2016-04-14 17:21:24 895

转载 Storm编程入门

Storm是一个分布式是实时计算系统,它设计了一种对流和计算的抽象,概念比较简单,实际编程开发起来相对容易。下面,简单介绍编程实践过程中需要理解的Storm中的几个概念:TopologyStorm中Topology的概念类似于Hadoop中的MapReduce Job,是一个用来编排、容纳一组计算逻辑组件(Spout、Bolt)的对象(Hadoop MapReduce中一个Jo

2016-04-14 16:35:48 497

原创 kafka常用的配置属性

配置文件在config/server.properties下面的一些配置可能是你需要进行修改的。broker.id整数,建议根据ip区分 log.dirskafka存放消息文件的路径,默认/tmp/kafka-logsportbroker用于接收produ

2016-04-11 14:55:39 1100

原创 CMS GC时出现promotion failed跟concurrent mode failure

CMS GC时出现promotion failed和concurrent mode failure对于采用CMS进行旧生代GC的程序而言,尤其要注意GC日志中是否有promotion failed和concurrent mode failure两种状况,当这两种状况出现时可能会触发Full GC。promotion failed是在进行Minor GC时,survivo

2016-04-05 18:43:27 4153

原创 shell命令计算MD5值

linux下 计算MD5值   printf "易宝支付有限公司" | md5sum | tr [a-z] [A-Z] mac下 md5sum为md5printf "易宝支付有限公司" | md5 | tr [a-z] [A-Z] tr [a-z] [A-Z] 是小写转为大写,不需要转换的可以不加,如下printf "易宝支付有限公司" | md5sum

2016-04-05 12:59:38 4004

原创 根据依赖来编译java文件,生成class

linux下单个文件编译只需要 javac *.java,但如果该java文件有依赖的jar包以及其他class文件,咋办呢?运行如下命令java -cp 项目的最大包名的路径:lib的位置 *.java例:java -cp /com/sanamaz/*:/home/user/lib/*   Test.java

2016-04-05 12:55:54 1002

原创 Java字符串全角转半角

根据unicode编码写的一个Java字符串全角转半角的方法,分享下/**     * 全角转半角     * @param input String.     * @return 半角字符串     */    public static String ToDBC(Stringinput) {        

2016-03-25 16:30:44 333

原创 java判断字符串是否乱码

一段很好用的判断字符串转换后乱码问题的代码,分享一下。/** * 判断字符串是否乱码 * @author yang.shen * @param strName * @return boolean */public static boolean isMessyCode(String strName) {Pattern p = Pat

2016-03-18 17:55:53 1279

转载 堆排序算法

堆排序与快速排序,归并排序一样都是时间复杂度为O(N*logN)的几种常见排序方法。学习堆排序前,先讲解下什么是数据结构中的二叉堆。二叉堆的定义二叉堆是完全二叉树或者是近似完全二叉树。二叉堆满足二个特性:1.父结点的键值总是大于或等于(小于或等于)任何一个子节点的键值。2.每个结点的左子树和右子树都是一个二叉堆(都是最大堆或最小堆)。当父结点的键值总是大于或等于任何一个子节

2016-03-09 09:35:55 271

转载 快速排序

排序算法——快速排序今天介绍快速排序,这也是在实际中最常用的一种排序算法,速度快,效率高。就像名字一样,快速排序是最优秀的一种排序算法。思想快速排序采用的思想是分治思想。快速排序是找出一个元素(理论上可以随便找一个)作为基准(pivot),然后对数组进行分区操作,使基准左边元素的值都不大于基准值,基准右边的元素值 都不小于基准值,如此作为基准的元素调整到排序后的正确

2016-03-09 09:32:42 234

原创 启发式算法

今天了解的启发式算法:通俗的说,启发式算法是指在一个随机的群体寻优过程中,个体能够利用自身或者全局的经验来制定各自的搜索策略。相比最初的穷举迭代搜索或者随机搜索,一个显著的特点就是个体能够基于经验或者个体间经验交流改变搜索方式,是一种有目的或者有策略的方法。再通俗一点就是,咱们都生活在某个小区,你看到你邻居每天晚上摆地摊赚钱,你受到启发也每天去同样的地方摆地摊赚钱,然后越来越多的人发现摆地摊赚

2016-03-09 09:25:28 494

原创 : Attribute "xmlns" was already specified for element "web-app".

该错误是由于maven项目重命名后造成的,web.xml中又生成了一句xmlns:web="http://java.sun.com/xml/ns/javaee" 删掉重复的就ok

2016-03-09 09:19:16 692

原创 ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet

遇到该错误1. 查看 hbase master log, 发现2014-07-14 23:31:51,270 INFO [master:192.168.126.8:60000] util.FSUtils: Waiting for dfs to exit safe mode...退出 hadoop 安全模式bin/hdfs dfsadmin -safemode leave成功解决。

2016-03-01 22:31:55 3729

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除