gao634209276-CSDN博客

原创 git设置远程仓库关于多用户ssh无密码登陆问题

Git是目前世界上最先进的分布式版本控制系统（没有之一）。分布式版本控制系统与集中式版本控制系统不同分布式版本控制系统根本没有“中央服务器”，每个人的电脑上都是一个完整的版本库，这样，你工作的时候，就不需要联网了，因为版本库就在你自己的电脑上如果git只是在一个仓库里管理文件历史，Git和SVN真没啥区别。Git是分布式版本控制系统，同一个Git仓库，可以分布到不同的机器上。在实际

2016-08-28 00:15:35 1523

原创 Spark Core通过log信息由浅到深分析架构原理和工作流程

本文完全从0开始了解spark到深入理解spark core一,概念,基础================================================================1.前提编译:./make-distribution.sh --tgz -Pyarn -Phadoop-2.6 -Dhadoop.version=2.7.2 -Phi

2016-08-27 18:26:17 1087

原创 hive 使用TEZ的安装配置

hive,tez,hadoop2

2016-08-27 00:06:57 11190 5

原创个人关于hadoop使用LZO压缩主要步骤以及带来的后续问题和解决办法

hadoop-lzo安装教程请链接https://github.com/twitter/hadoop-lzo下载打包hadoop-lzohttps://github.com/twitter/hadoop-lzo/zipball/master1.其中说明:首先要在本地安装lzo库,方法如下:http://www.oberhumer.com/opensource/lzo/#down

2016-08-26 23:33:58 1954

原创快速排序算法解析

可参考http://blog.csdn.net/morewindows/article/details/6684558解析个人用于分析理解使用的java Demo如下package sort.demo;public class QuickDemo { public void quicksort(int[] a, int l, int r) { // show(a); if

2016-08-21 00:38:49 325

原创分治排序算法Java Demo

解释详情参考算法导论分治法package sort.demo;public class MergeDemo { public void merge(int[] a, int p, int q, int r) { // L[m+1] = a(p,q]+Integer.MAX_VALUE int m = q - p + 1; // R[n+1] = a[q+1,r]+I

2016-08-21 00:33:16 283

原创冒泡,选择,插入三大基本排序解析以及Demo

面试中被问道每写好,回来写几个Demo加深一下认识冒泡是一种流行但效率低的算法,具体通过反复交换相邻未排序的元素算法实现通过经典java 演示进行阐述//冒泡是一种流行但效率低的算法,反复交换相邻未排序的元素public class BubbleDemo { // int[] a = { 1, 5, 2, 4, 3, 7, 0 }; int[] a = { 6, 5, 4,

2016-08-20 23:28:12 288

转载消息队列中点对点与发布订阅区别

背景知识JMS一个在 Java标准化组织（JCP）内开发的标准（代号JSR 914）。2001年6月25日，Java消息服务发布JMS 1.0.2b，2002年3月18日Java消息服务发布 1.1.Java消息服务（Java Message Service，JMS）应用程序接口是一个Java平台中关于面向消息中间件（MOM）的API，用于在两个应用程序之间，或分布式系统中发送消息

2016-08-17 21:47:59 436

转载 Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战

1、Spark编程模型1.1 术语定义l应用程序（Application）：基于Spark的用户程序，包含了一个Driver Program 和集群中多个的Executor；l驱动程序（Driver Program）：运行Application的main()函数并且创建SparkContext，通常用SparkContext代表Driver Program；l执行单元（Exe

2016-08-17 17:53:12 351

转载 Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据

摘要：Apache Spark 是加州大学伯克利分校的 AMPLabs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计，使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x)，并且对多语言(Scala、Java、Python)提供支持。其一栈式设计特点使得我们的学习和维护成本大大地减少，而且其提供了很好的容错解决方案。...Apache Spark

2016-08-17 12:13:29 536

转载 DirectStream、Stream的区别-SparkStreaming源码分析02

在Spark1.3之前，默认的Spark接收Kafka数据的方式是基于Receiver的，在这之后的版本里，推出了Direct Approach，现在整理一下两种方式的异同。1. Receiver-based Approach示例代码：import org.apache.spark.streaming.kafka._val kafkaStream = KafkaU

2016-08-17 12:12:28 905

转载这几天折腾spark的kafka的低阶API createDirectStream的一些总结

大家都知道在spark1.3版本后，kafkautil里面提供了两个创建dstream的方法，一个是老版本中有的createStream方法，还有一个是后面新加的createDirectStream方法。关于这两个方法的优缺点，官方已经说的很详细(http://Spark.apache.org/docs/latest/streaming-kafka-integration.html)，总之就是cr

2016-08-17 12:11:38 550

转载 Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式

Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式，可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列，Direct方式是直接连接到kafka的节点上获取数据了。一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现

2016-08-17 12:10:37 365

转载 apache kafka技术分享系列(目录索引)

目录索引：Kafka使用场景1.为何使用消息系统2.我们为何需要搭建Apache Kafka分布式系统3.消息队列中点对点与发布订阅区别kafka开发与管理：1）apache kafka消息服务2）kafak安装与使用3）apache kafka中server.properties配置文件参数说明4）Apa

2016-08-17 12:08:24 383

转载 hadoop核心逻辑shuffle代码分析-map端

首先用一张图展示下map的流程：在上图中，我们假设此次mapreduce有多个mapper和2个reducer，p0 p1分别代表该数据应该分配到哪个reducer端。我将mapper的过程大致分为5个过程。 1.prepare Input。Mapreduce程序都需要指定输入文件，输入的格式有很多种，最常见的是保存在hdfs上的文本文件。在用户提

2016-08-17 12:06:29 256

转载 MapReduce:详解Shuffle过程

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在

2016-08-17 12:04:23 235

转载 MapReduce: 提高MapReduce性能的七点建议[译]

Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统，并且它们运行着各式各样用户的代码，这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来，调整cluster或job的运行更像一个医生对待病人一样，找出关键的“症状”，对于不同的症状有不同的诊断和处理方式。在医学领域，没

2016-08-17 12:01:51 292

转载 mapreduce yarn内存参数

1、yarn-site.xml 设置1.1 RM设置RM的内存资源配置，主要是通过下面的两个参数进行的（这两个值是Yarn平台特性，应在yarn-sit.xml中配置好）： yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximum-allocation-mb说明：单个容器可申请的最小与最大内存，应用在运行申请内存时不

2016-08-17 11:59:18 521

转载深入浅出数据仓库中SQL性能优化之Hive篇

一个Hive查询生成多个Map Reduce Job，一个Map Reduce Job又有Map，Reduce，Spill，Shuffle，Sort等多个阶段，所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化（其中又会有细分），针对MR全局的优化，和针对整个查询（多MR Job）的优化，下文会分别阐述。在开始之前，先把MR的流程图帖出来（摘自Hadoop权威指南

2016-08-17 11:55:21 394

转载 hadoop 参数配置

Hadoop参数汇总@(hadoop)[配置]linux参数以下参数最好优化一下：文件描述符ulimit -n用户最大进程 nproc （hbase需要 hbse book）关闭swap分区设置合理的预读取缓冲区Linux的内核的IO调度器JVM参数JVM方面的优化项Hadoop Performance Tuning GuideHadoop参数大全适用版本：4.

2016-08-17 11:51:03 433

转载 Akka入门编程实践

Akka是使用Scala语言开发一个编程库，基于事件驱动的架构实现异步处理，它能够简化编写分布式应用程序。Akka中最核心的概念是Actor模型，它为编写分布式/并行计算应用程序提供了高层次抽象，在实际编程实践中，开发人员可以从对复杂网络通信细节的处理、多线程应用场景下对锁的管理中解脱出来。Akka能够给应用程序带来的几个重要的特性是：容错性可伸缩性异步性事件驱动架构（EDA）远程透明

2016-08-17 10:02:43 687

转载 Akka Cluster原理与应用

Akka集群原理Akka集群支持去中心化的基于P2P的集群服务，没有单点故障（SPOF）问题，它主要是通过Gossip协议来实现。对于集群成员的状态，Akka提供了一种故障检测机制，能够自动发现出现故障而离开集群的成员节点，通过事件驱动的方式，将状态传播到整个集群的其它成员节点。状态转移与故障检测Akka内部为集群成员定义了一组有限状态（6种状态），并给出了一个状态转移矩阵，代码如

2016-08-17 09:55:47 491

转载 Akka框架基本要点介绍

Akka基于Actor模型，提供了一个用于构建可扩展的（Scalable）、弹性的（Resilient）、快速响应的（Responsive）应用程序的平台。本文基本上是基于Akka的官方文档（版本是2.3.12），通过自己的理解，来阐述Akka提供的一些组件或概念，另外总结了Akka的一些使用场景。Actor维基百科这样定义Actor模型：在计算科学领域，Actor模型是一个并行计

2016-08-17 09:51:56 342

转载 Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算。我

2016-08-16 23:29:45 1354

转载基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程

基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程1、环境准备，四台测试服务器spark集群三台，spark1,spark2,spark3kafka集群三台，spark1,spark2,spark3zookeeper集群三台，spark1,spark2,spark3日志接收服务器， spark1日志收集服务器，redis (这台机器用来

2016-08-16 22:32:32 805

转载 idea创建Spark Maven项目

在Spark快速入门指南 – Spark安装与基础使用中介绍了Spark的安装与配置，在那里还介绍了使用spark-submit提交应用，不过不能使用vim来开发Spark应用，放着IDE的方便不用。这里介绍使用Intellij Idea搭建Spark的开发环境。1、Intellij Idea的安装由于Spark安装在Ubuntu环境中，这里的Idea也安装在Ubuntu中。首先是下载，到

2016-08-16 22:30:45 2600

转载 zookeeper工作原理

zookeeper工作原理： ZooKeeper是一开源分布式应用程序协调服务，包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等功能，可提供一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。zookeeper的基本概念角色Zookeeper中的角色主要有以下三类，如下表所示：Leader，"Learner"(Fol

2016-08-10 17:41:08 227

转载 Java NIO使用及原理分析 (四)

在上一篇文章中介绍了关于缓冲区的一些细节内容，现在终于可以进入NIO中最有意思的部分非阻塞I/O。通常在进行同步I/O操作时，如果读取数据，代码会阻塞直至有可供读取的数据。同样，写入调用将会阻塞直至数据能够写入。传统的Server/Client模式会基于TPR（Thread per Request）,服务器会为每个客户端请求建立一个线程，由该线程单独负责处理一个客户请求。这种模式带来的一个问题就

2016-07-26 20:05:24 200

转载 Java NIO使用及原理分析（三）

在上一篇文章中介绍了缓冲区内部对于状态变化的跟踪机制，而对于NIO中缓冲区来说，还有很多的内容值的学习，如缓冲区的分片与数据共享，只读缓冲区等。在本文中我们来看一下缓冲区一些更细节的内容。缓冲区的分配在前面的几个例子中，我们已经看过了，在创建一个缓冲区对象时，会调用静态方法allocate()来指定缓冲区的容量，其实调用 allocate()相当于创建了一个指定大小的数组，并把它包装为缓冲

2016-07-26 20:04:40 198

转载 Java NIO使用及原理分析（二）

在第一篇中，我们介绍了NIO中的两个核心对象：缓冲区和通道，在谈到缓冲区时，我们说缓冲区对象本质上是一个数组，但它其实是一个特殊的数组，缓冲区对象内置了一些机制，能够跟踪和记录缓冲区的状态变化情况，如果我们使用get()方法从缓冲区获取数据或者使用put()方法把数据写入缓冲区，都会引起缓冲区状态的变化。本文为NIO使用及原理分析的第二篇，将会分析NIO中的Buffer对象。在缓冲区中，最重要

2016-07-26 20:03:51 164

转载 Java NIO使用及原理分析 (一)

在Java1.4之前的I/O系统中，提供的都是面向流的I/O系统，系统一次一个字节地处理数据，一个输入流产生一个字节的数据，一个输出流消费一个字节的数据，面向流的I/O速度非常慢，而在Java 1.4中推出了NIO，这是一个面向块的I/O系统，系统以块的方式处理处理，每一个操作在一步中产生或者消费一个数据库，按块处理要比按字节处理数据快的多。在NIO中有几个核心对象需要掌握：缓冲区（Buffe

2016-07-26 20:03:11 217

转载 HBase客户端API使用

篇幅中使用的HBase版本为1.1.2Java APIHBase提供了一套Java API来支持Java程序对HBase数据库的请求操作，在hbase shell中能够使用的都可以通过这套API来实现 HBase有两套API，分别是1.0和2.0，在较新版本的HBase中使用1.0的API时，很多类和方法都被标记为Deprecated，官方表示旧版本的API将会在3.0版本中删除，所以

2016-07-24 19:03:19 666

转载整合storm-hdfs过程中源码学习

前一段整合了stomr-hdfs，但是发现在原有的storm-hdfs-0.9.4.jar中的写入数据的逻辑不满足我们的需求，于是乎需要看源码，然后在源码的基础上改写源码，满足自己的需求。整合storm-hdfs的过程，其实也就是编写storm的拓扑结构，然后调用storm-hdfs-0.9.4.jar中的hdfsBolt，通过配置hdfsBolt的一些与hdfs有关的参数，将数据写入到hdf

2016-07-24 19:01:16 346

转载 MySQL性能优化的21个最佳实践

今天，数据库的操作越来越成为整个应用的性能瓶颈了，这点对于Web应用尤其明显。关于数据库的性能，这并不只是DBA才需要担心的事，而这更是我们程序员需要去关注的事情。当我们去设计数据库表结构，对操作数据库时(尤其是查表时的SQL语句)，我们都需要注意数据操作的性能。这里，我们不会讲过多的SQL语句的优化，而只是针对MySQL这一Web应用最多的数据库。希望下面的这些优化技巧对你有用。　　1.

2016-07-24 14:41:14 219

原创 curator框架对zookeeper分布式的锁全局同步的实现

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.

2016-07-24 10:20:18 474

转载 kafka笔记(精简容懂)

kafka笔记 1/kafka是一个分布式的消息缓存系统2/kafka集群中的服务器都叫做broker3/kafka有两类客户端，一类叫producer（消息生产者），一类叫做consumer（消息消费者），客户端和broker服务器之间采用tcp协议连接4/kafka中不同业务系统的消息可以通过topic进行区分，而且每一个消息topic都会被分区，以分担消息读写的负载5/每

2016-07-24 10:11:08 353

转载 Clojure的Maven配置

先说ClojureClojure发音类似”closure”[‘kləʊʒə(r)])],查看了一下官网并没发现这个名字的由来，也许是闭包的意思。它是JVM中的Lisp，也可以算是现在最实用的Lisp，它可以重用所有的JVM上的库，在设计上也是很考究，如面向并发设计了STM。而且也有了著名的开源项目Storm。因此，值得慕名而来学习学习，拓展一下思路。Hello World去Clojur

2016-07-24 00:15:28 847

转载 maven常用命令

Maven库：http://repo2.maven.org/maven2/Maven依赖查询：http://mvnrepository.com/Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName -DartifactId=projectName

2016-07-23 22:46:08 151

转载 Curator是Netflix开源的一套ZooKeeper客户端框架. Netflix在使用ZooKeeper的过程中发现ZooKeeper自带的客户端太底层, 应用方在使用的时候需要自己处理很多事情

Curator是Netflix开源的一套ZooKeeper客户端框架. Netflix在使用ZooKeeper的过程中发现ZooKeeper自带的客户端太底层, 应用方在使用的时候需要自己处理很多事情, 于是在它的基础上包装了一下, 提供了一套更好用的客户端框架. Netflix在用ZooKeeper的过程中遇到的问题, 我们也遇到了, 所以开始研究一下, 首先从他在github上的源码, wik

2016-07-23 20:40:01 464

转载 memcached 常用命令及使用说明

memcached 查看方法格式: telnet ip port例如 telnet localhost 11211退出命令：quit一.存储命令存储命令格式：[plain] view plain copy 参数说明：command name命令名称key查找关

2016-07-23 14:22:29 235

hive-hbase-handler-1.2.1.jar

hadoop-eclipse-plugin-2.7.2.jar

求介绍csdn中Robot-N的实现原理