小江_xiaojiang-CSDN博客

转载全文搜索引擎 Elasticsearch 入门教程

全文搜索属于最常见的需求，开源的 Elasticsearch （以下简称 Elastic）是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。Elastic 的底层是开源库 Lucene。但是，你没法直接用 Lucene，必须自己写代码去调用它的接口。Elastic 是 Lucene 的封装，提供了 REST API 的操...

2018-05-07 10:40:37 422

转载 finalize方法的使用

《JAVA编程思想》：Java提供finalize()方法，垃圾回收器准备释放内存的时候，会先调用finalize()。 (1).对象不一定会被回收。 (2).垃圾回收不是析构函数。 (3).垃圾回收只与内存有关。 (4).垃圾回收和finalize()都是靠不住的，只要JVM还没有快到耗尽内存的地步，它是不会浪费时间进行垃圾回收的。有时当撤消...

2018-05-04 17:11:48 732

原创 java中static、final、static final的区别

final可以修饰：方法，类，局部变量对于基本类型数据，final会将值变为一个常数（创建后不能被修改）；但是对于对象句柄（亦可称作引用或者指针），final会将句柄变为一个常数（进行声明时，必须将句柄初始化到一个具体的对象。而且不能再将句柄指向另一个对象。但是，对象的本身是可以修改的。这一限制也适用于数组，数组也属于对象，数组本身也是可以修改的。方法参数中的final句柄，意味着在该方法内部，...

2018-05-03 21:00:01 1533

原创 RPC结构拆解

RPC结构拆解RPC服务方通过RpcServer去导出（export）远程接口方法，而客户端通过RpcClient去引入（import）远程接口方法。客户方像调用本地方法一样去调用远程接口方法，RPC框架提供接口的代理实现，实际的调用将委托给代理RpcProxy。代理封装调用信息并将调用转交给RpcInvoker去实际执行。在客户端的RpcInvoker通过连接器RpcConnector去维持与服...

2018-02-27 10:35:41 535

转载 JAVA中IO结构图

转载地址：http://blog.csdn.net/houzuoxin/article/details/39006179JAVA中IO结构总图：Java 流在处理上分为字符流和字节流。字符流处理的单元为 2 个字节的 Unicode 字符，分别操作字符、字符数组或字符串，而字节流处理单元为 1 个字节，操作字节和字节数组。Java 内用 Unicode 编码存储

2017-12-27 10:53:37 535

转载 spark之CF协同过滤

一）、协同过滤　　　　　　1.1 概念　　　　　　　　　　　　　　　协同过滤是一种借助"集体计算"的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义　　　　　　　1.2 分类　　　　　　　　　1.在基于用户的方法的中，如果两个用户表现出相似的偏好（即对相同物品的偏好大体相同），那就认为他们的兴趣类似。要对他们中的一个用户推荐一个未知物品

2017-12-07 16:57:47 3669

原创 SparkML之PCA主成分分析

为什么要对数据进行降维？在机器学习或者数据挖掘中，我们往往会get到大量的数据源，这些数据源往往有很多维度来表示它的属性，但是我们在实际处理中只需要其中的几个主要的属性，而其他的属性或被当成噪声处理掉。比如，13*11的源数据经过将为后变成了13*4的优化数据，那么，中间就减去了7个不必要的属性，选取了4个主要属性成分，简化了计算。常用的数据降维方法有：主成分分析、因子分析、

2017-12-07 16:01:14 2669

原创 sparkML之kmeans聚类

1.标准kmeans算法kmeans算法是实际中最常用的聚类算法，没有之一。kmeans算法的原理简单，实现起来不是很复杂，实际中使用的效果一般也不错，所以深受广大人民群众的喜爱。 kmeans算法的原理介绍方面的paper多如牛毛，而且理解起来确实也不是很复杂，这里使用wiki上的版本：已知观测集(x1,x2,⋯,xn)，其中每个观测都是一个d维实矢量，kmeans聚类要把这n

2017-12-06 20:42:52 1207

转载 GC日志格式分析

转载地址：http://blog.csdn.net/huangzhaoyang2009/article/details/11860757JVM的GC日志的主要参数包括如下几个：-XX:+PrintGC 输出GC日志-XX:+PrintGCDetails 输出GC的详细日志-XX:+PrintGCTimeStamps 输出GC的时间戳（以基准时间的形式）-

2017-11-09 11:20:25 823

原创 kafka问题总结

kafka重启如果topic副本因子是一个的有可能导致以下两种问题：1、class kafka.common.LeaderNotAvailableException错误处理方案：一般是zk上的leader信息和broker上的leader信息不一致可以通过如下命令检查zk上信息：get /brokers/topics/profile-manual-x/partitions/

2017-10-25 09:56:50 666

原创 java实时读取log日志文件

需求：需求：正在开发一个监控系统，要求将多台日志信息实时采集出来，然后保存到Kafka中，后期对日志数据进行spark运算、大数据处理分析，日志按大小，时间切分。运用的技术：RandomAccessFile类中seek方法可以从指定位置读取文件，可以用来实现文件实时读取，JDK文档有对RandomAccessFile的介绍。思想：在每一次读取后，close一下就不会影响重命

2017-10-16 17:08:19 39883 4

转载 kafka在zookeeper中存储结构

1.topic注册信息/brokers/topics/[topic] :存储某个topic的partitions所有分配信息Schema:{ "version": "版本编号目前固定为数字1", "partitions": { "partitionId编号": [ 同步副本组brokerId列表

2017-10-12 16:45:44 403

转载 JVM调优总结 -Xms -Xmx -Xmn -Xss

JVM调优总结 -Xms -Xmx -Xmn -Xss堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设

2017-10-10 16:15:39 324

原创 Spark RDD 分区数详解

基础知识spark.default.parallelism：（默认的并发数）= 2当配置文件spark-default.conf中没有显示的配置，则按照如下规则取值：1、本地模式（不会启动executor，由SparkSubmit进程生成指定数量的线程数来并发）： spark-shell spark.default.parallelism = 1 s

2017-10-10 14:05:23 12075 3

转载 Kafka学习整理九(集群的扩容)

第一步配置新得broker将现有的集群上任一个服务器上的kafka目录拷贝到新的服务器上修改config/server.properties中的broker.id、log.dirs、listeners创建logs.dirs指定的目录，并设定读写权限(chomd -R 777 XXX)broker.id=3log.dirs=kafka-logslisteners=PLAIN

2017-09-26 11:30:58 371

转载 Kafka学习整理八(topic管理)

一、创建topic使用命令行手动或者向一个不存在的topic发送(生产)消息时都会新创建一个topic 向一个不存在的topic发送(生产)消息时新创建的topic时，其采用为默认的topic-config配置以及server.properties中的topic的配置。使用命令行手动创建一个topic可以使用 –config 选项配合topic-config配置中的信息来覆盖默认配

2017-09-26 11:27:55 556

转载 Kafka学习整理七(producer和consumer编程实践)

实践代码采用kafka-clients V0.10.0.0 编写一、编写producer第一步：使用./kafka-topics.sh 命令创建topic及partitions 分区数./kafka-topics.sh --create--zookepper "172.16.49.173:2181" --topic "producer_test" --partitions 10 rep

2017-09-26 11:26:58 1580

转载 Kafka学习整理六(server.properties配置实践)

配置实践基于kafka的 0.10.0版本单机伪集群的配置第一步：打开config/server.properties 文件，修改broker.id，listeners，port,log.dirsvi config/server.properties 1broker.id=0listeners=PLAINTEXT://172.16.49.173:9092port=9092log.

2017-09-26 11:24:25 1046

转载 Kafka学习整理五(Consumer配置)

PropertyDefaultDescriptiongroup.id 用来唯一标识consumer进程所在组的字符串，如果设置同样的group id，表示这些processes都是属于同一个consumer groupzookeeper.connect 指定zookeeper的连接的字符串，格式是hostnam

2017-09-26 11:21:44 387

转载 Kafka学习整理四(Producer配置)

名称说明类型默认值有效值重要性bootstrap.servers用于建立与kafka集群连接的host/port组。数据将会在所有servers上均衡加载，不管哪些server是指定用于bootstrapping。这个列表仅仅影响初始化的hosts（用于发现全部的servers）。这个列表格式：host1:port1,host

2017-09-26 11:20:51 402

转载 Kafka学习整理三(borker(0.9.0及0.10.0)配置)

Kafka日志本身是由多个日志段组成(log segment)。一个日志是一个FileMessageSet，它包含了日志数据以及OffsetIndex对象，该对象使用位移来读取日志数据 * borker配置就是指配置server.properties文件 *最小配置通常情况下需要在减压缩kafka后，修改config/server.properties 配置文件中的以下两项log.

2017-09-26 11:20:06 382

转载 Kafka学习整理二(定义、特点、应用场景)

Kafka是什么Kafka最先由LinkedIn公司开发，之后成为Apache的顶级项目。Kafka是一个分布式的、分区化、可复制提交的日志服务LinkedIn使用Kafka实现了公司不同应用程序之间的松耦和，那么作为一个可扩展、高可靠的消息系统Kafaka的特点Kafaka是分布式的，其所有的构件borker(服务端集群)、producer(消息生产)、consumer(消息

2017-09-26 11:12:49 270

转载 Kafka学习整理一(基础概念)

Kafka基础概念Kafka中包含以下基础概念 1. Topic(话题)：Kafka中用于区分不同类别信息的类别名称。由producer指定 2. Producer(生产者)：将消息发布到Kafka特定的Topic的对象(过程) 3. Consumers(消费者)：订阅并处理特定的Topic中的消息的对象(过程) 4. Broker(Kafka服务集群)：已发布的消息保存在一组

2017-09-26 10:15:31 302

转载 Spark性能优化：shuffle调优

shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占到一小部

2017-09-22 15:21:30 386

转载 Spark性能优化：数据倾斜调优

前言继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。1.数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此

2017-09-22 15:20:05 294

转载 Spark性能优化：资源调优篇

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪

2017-09-22 15:12:45 373

转载 Spark性能优化：开发调优篇

1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算

2017-09-22 15:10:28 250

原创 spark Shuffle过程分析

普通shuffle过程shuffle过程是spark运算的重要过程，也是spark调优的关键地方之一，在spark中的reduceByKey，groupByKey，sortByKey，countByKey，join，cogroup等操作时，都会触发shuffle过程。shuffle过程发生在shuffleMapTask与resultTask之间，当shuffleMapTask的输出数据先放到内

2017-09-22 14:52:44 496

转载 kafka常用命令

转载地址：http://www.cnblogs.com/zzt-lovelinlin/p/6228773.htmlkafka常用命令以下是kafka常用命令行总结：0.查看有哪些主题： ./kafka-topics.sh --list --zookeeper 192.168.0.201:121811.查看topic的详细信息./kafka-topics.sh

2017-09-12 14:20:16 1778

转载 Java 并发工具包 java.util.concurrent 用户指南

转载地址：http://blog.csdn.net/defonds/article/details/44021605/译序本指南根据 Jakob Jenkov 最新博客翻译，请随时关注博客更新：http://tutorials.jenkov.com/java-util-concurrent/index.html。本指南已做成中英文对照阅读版的 pdf 文档，有兴趣的

2017-09-08 17:39:59 235

原创 hive中UDTF编写和使用

hive使用也将近两年了，很多东西都在慢慢累积，对于自定义的function，工作中主要用到的就是UDF和UDTF，UDF在前面的文章已经介绍过了，这里将UDTF做一个笔记，以便以后参考。1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。

2017-09-08 10:43:09 9309

原创 Spark内核架构剖析

先来章整个SparkContext的架构图:1.通过SparkContext的createTaskScheduler获取TaskSchedulerImpl和SparkDeploySchedulerBackendprivate[spark] var (schedulerBackend, taskScheduler) = SparkContext.cre

2017-09-05 11:53:37 490

转载 Hive分析窗口函数(四) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

接上篇Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUEGROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。Hive版本为 apache-hive-0.13.1数据准备：2

2017-08-11 15:08:05 548

转载 Hive分析窗口函数(三) LAG,LEAD,FIRST_VALUE,LAST_VALUE

接上篇Hive分析窗口函数(二、三) NTILE,ROW_NUMBER,RANK,DENSE_RANK继续学习这四个分析函数。注意：这几个函数不支持WINDOW子句。（什么是WINDOW子句，Hive分析窗口函数（一）SUM,AVG,MIN,MAx）Hive版本为 apache-hive-0.13.1数据准备：cookie1,2015-04-10

2017-08-11 14:57:30 1709

转载 Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

接上篇：Hive分析窗口函数（一）SUM,AVG,MIN,MAx本文中介绍前几个序列函数，NTILE,ROW_NUMBER,RANK,DENSE_RANK，下面会一一解释各自的用途。Hive版本为 apache-hive-0.13.1注意：序列函数不支持WINDOW子句。（什么是WINDOW子句，Hive分析窗口函数（一）SUM,AVG,MIN,MAx）数据准备：

2017-08-11 14:46:19 299

转载 Hive分析窗口函数(一) SUM,AVG,MIN,MAX

转载地址：http://www.aboutyun.com/thread-12831-1-1.htmlHive中提供了越来越多的分析函数，用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍，将陆续发布。今天先看几个基础的，SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.1数据准备 CREATE

2017-08-11 14:37:51 1765

原创 Spark中宽依赖和窄依赖

Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，而划分依据就是RDD之间的依赖关系。针对不同的转换函数，RDD之间的依赖关系分类窄依赖（narrow dependency）和宽依赖（wide dependency, 也称 shuffle dependency）。窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用，子RDD分区通常对应常数个

2017-07-12 18:55:49 595

原创高级编程之topn

案例：对每个班级内的学生成绩，取出前3名输入样例：class1 90class2 56class1 87class1 76class2 88class1 95class1 74class2 87class2 67class2 77输出样例：class： class1959087class： class2888777java代码实现：impor

2017-07-12 18:55:31 323

原创高级编程之二次排序

需求：按照文件中的第一列排序。如果第一列相同，则按照第二列排序。输入样例：1 52 43 61 32 11 1输出样例：1 11 31 52 12 43 6java实现代码：（1）定义二次排序类package cn.spark.study.core;import java.io.Serializable;import scala.ma

2017-07-12 18:55:14 256

原创基于排序机制的wordcount程序

案例需求：对文本文件内的每个单词都统计出其出现的次数。按照每个单词出现次数的数量，降序排序。java代码：import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.

2017-07-10 19:20:01 474