自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

ZMC921的博客

原创 hive 写 es 报EsHadoopRemoteException: index_closed_exception: closed null

错误由来，es添加xpack后，hive写es总报 index关闭。通过测试，其实数据是可以写入index，且数据量对不上，怀疑是最后提交的时候无法成功，一直提交刷新，最后报错。Status: FailedVertex failed, vertexName=Map 1, vertexId=vertex_1605086559607_0014_1_00, diagnostics=[Task failed, taskId=task_1605086559607_0014_1_00_000035, diagn

2020-11-16 11:04:09 746

原创 Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not acces

hive 给es写数据，建表的时候报下面的错误FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster i

2020-06-17 14:46:23 5606 2

原创 Log4j2

参考文档官网 https://logging.apache.org/log4j/2.x/index.html博客 http://www.aiuxian.com/article/p-2039401.html博客 https://www.cnblogs.com/hafiz/p/6170702.html Apache Log4j 2是对Log4j的升级，它比其前身Log4j 1.x提...

2018-12-07 18:37:58 577

原创 Spring 和 Spring Boot 项目架构通过 Maven Assembly Plugin进行打包

1、pom文件配置如下： <build> <plugins> <plugin> <groupId>org.springframework.boot</groupId> <artifactId>spring-boo...

2018-12-05 19:58:32 1467

原创 Redis 3.2 配置文件详解

2018-09-03 23:42:51 665

原创 Log4j按大小、日期生成gz压缩文件并删除过期日志

1、准备jar :log4j-1.2.17.jar,commons-logging-1.2.jar，这2个就可以了，其他关于日志的jar包就不要加进来了，在优先级上会有冲突。2、定义一个类，继承RollingFileAppender类，这个类是按照日志大小滚动生成日志，并把日志编号。我就在这个类基础上重新写了其中的一些方法，加上日期和删除功能，稍加改动就行了。package com.h...

2018-08-29 15:33:37 5642

原创 Log4j按大小和日期生成文件并自动删除过期日志

1、准备jar :log4j-1.2.17.jar,commons-logging-1.2.jar，这2个就可以了，其他关于日志的jar包就不要加进来了，在优先级上会有冲突。2、定义一个类，继承RollingFileAppender类，这个类是按照日志大小滚动生成日志，并把日志编号。我就在这个类基础上重新写了其中的一些方法，加上日期和删除功能，稍加改动就行了。package com.h...

2018-08-25 23:37:24 3755

原创 MAC通过ZOC远程访问Linux

虽然mac有SSH方式远程连接Linux主机，但是终端每次都要输入用户名和密码登录，太麻烦了，现在有zoc7完美解决这个问题。1、首先下载ZOCZOC7 的下载地址： https://www.emtec.com/download.html2、安装配置使用安装简单，只需要一直点就OK了。安装完成之后，点击“Host Directory“, 在”My Connections”中 “Ne...

2018-07-29 23:46:04 1814 1

原创如何停止SparkStreaming服务

网上的怎么关闭SparkStreaming的文章一大堆，可我还是费了很大的力气才解决了我的问题。我们都知道SparkStreaming程序是一个长服务,一旦运转起来不会轻易停掉,那么如果我们想要停掉正在运行的程序应该怎么做呢? 如果运行的是spark on yarn模式直接使用 # yarn application -kill taskId 暴力...

2018-05-17 15:27:44 5891 1

原创 Stack trace: ExitCodeException exitCode=15 OR File does not exist: hdfs:/spark2-history

spark on yarn集群运行程序报错:Stack trace: ExitCodeException exitCode=15:查看yarn的聚合日志，将日志下载下来查看。yarn logs -applicationId application_1522668922644_40211 -out ./info发现日志内的错误如下java.io.FileNotFoundException: File...

2018-05-16 16:14:34 8691

原创 Spark性能优化合理设置并行度

1 Hadoop文件和block的关系，split与block的关系，一个map对应一个split分片吗？1.1 Hadoop文件和block的关系在介绍hadoop写文件的时候我们经常会说首先分割文件为多个块；那么是怎么分割的呢？这里其实不要有过的纠结，这里的块是block，是hdfs中切块的大小，属于物理划分，默认128M，在hadoop-default.xml配置中有体现，也可以修改...

2018-05-11 13:06:22 5116

原创 Spark log4j 日志配置详解

一、spark job日志介绍 spark中提供了log4j的方式记录日志。可以在$SPARK_HOME/conf/下，将 log4j.properties.template 文件copy为 log4j.properties 来启用log4j配置。但这个配置为全局配置，不能单独配置某个job的运行日志。在Spark的conf目录下，把log4j.properties.template...

2018-05-08 14:10:43 15377 5

原创 Kafka的Producer配置

名称说明类型默认值有效值重要性bootstrap.servers用于建立与kafka集群连接的host/port组。数据将会在所有servers上均衡加载，不管哪些server是指定用于bootstrapping。这个列表仅仅影响初始化的hosts（用于发现全部的servers）。这个列表格式：host1:port1,host2:port2,…因为这些server仅仅是用于初始化的连接，以发现集群...

2018-05-07 14:10:28 2073

转载 Kafka Consumer

Kafka Consumer1、Consumer Group与Topic订阅1.1 Consumer与partition1.2 Consumer与Consumer Group1.3 Coordinator1.3.1 Consumer 连接到Coordinator1.4 Consumer Group Management2、Consumer Fetch Message2.1 poll records...

2018-05-07 13:26:09 225

原创 Kafka常用命令

1、查看当前kafka服务器中的所有topic./kafka-topics.sh --list --zookeeper Hadoop01:2181,Hadoop02:21812、使用命令行方式创建topic：./kafka-topics.sh --create --zookeeper Hadoop01:2181,Hadoop02:2181 --replication-factor 2 --pa...

2018-05-07 13:19:56 293

原创如何配置sbt的build.sbt使得编译时将依赖包也打包进去

最近在使用spark on yarn模式提交任务，下面是我测试的案例--提交命令spark-submit --master yarn-cluster --class com.htlx.sage.bigdata.spark.etl.Application --driver-memory 1g --num-executors 2 --executor-memory 2g --executor-core...

2018-04-24 14:20:00 8008 2

原创 Container exited with a non-zero exit code 1 Failing this attempt. Failing the application.

最近在使用spark on yarn模式提交任务，下面是我测试的案例--提交命令spark-submit --master yarn-cluster --class com.htlx.sage.bigdata.spark.etl.Application --driver-memory 1g --num-executors 2 --executor-memory 2g --executor-core...

2018-04-24 14:14:11 3788 2

原创构建YUM本地源离线安装Docker

在docker的使用过程中有时候会遇到一些私有化部署的问题，就是在一些无法上网的机器上面安装使用dokcer，这就引出了docker的离线安装的问题环境：通过 uname -r 命令查看你当前的内核版本 centos 7.0内核版本3.10.0-327.el7.x86_64 centos 7.2-1511 docker 1.12.6版本基本

2018-01-22 15:33:14 2173

原创通过maven-shade-plugin 解决Elasticsearch与spark的jar包冲突问题

最近由于公司的spark版本升级使用spark2.1.1版本，个人感觉spark2.1.1确实好用些。我写的代码上需要连接elasticsearch，去es查询然后返回结果，这个时候在使用maven打包然后运行就会报下面的错之前在使用spark1.6的就没有出现过这个情况。查看错误发现是无法创建ES的客户端，上网查看质料原因是guava18个和包和spark自带的冲突了。然

2017-08-16 09:58:47 1379

原创 CentOS 7 离线安装 MySql

CentOS 7安装MySqlCentOS 7不带Mysql数据库了，默认的数据库是MariaDB（Mysql的一个分支）。安装MySQL前，先把系统自带的mariadb卸载掉安装包可以去我的资源中下载2.1查询Mysql和Mariadb# find / -name mysql 查找mysql名字的文件和文件夹# rpm -qa|grep my

2017-08-12 11:47:15 373

原创解决 Error:Unable to find encoder for type stored in a Dataset

Error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing o

2017-08-10 14:58:42 9831 2

原创 spark2.0 用socket接收数据并处理

假如你想监听一个数据服务器上的TCP Socket来获取源源不断的数据流，同时你想要实时的计算单词的数量。object SocketComplete { def main(args: Array[String]) { Logger.getLogger("org").setLevel(Level.WARN) //首先，我们需要导入必要的classes，并且创建一个本地

2017-07-31 14:33:02 1556

原创 scala读取HDFS上的文件，每次读取一行

用scala读取一个只有字符的文件，该文件是已经清洗完的数据，有规律，一行是一条数据。现在的需求是一次读取文件中的一部分，依次读取完。之前用字节流偶尔出现乱码，最后改成一次读取一行了。import java.io.{BufferedReader, InputStreamReader}import org.apache.hadoop.fs.FSDataInputStream/**

2017-07-26 11:14:55 7983 3

原创 scala读取HDFS文件，每次读取一定的字节数

用scala读取一个只有字符的文件，该文件是已经清洗完的数据，有规律，一行是一条数据。现在的需求是一次读取文件中的一部分，依次读取完。如果有疑问，或者找出错误的解决方案，请和我联系。一起研究讨论

2017-07-26 11:00:22 4238 2

原创 linux配置java环境变量(详细)

一. 解压安装jdk 在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录，执行命令 ./jdk-6u14-linux-i586.bin 这时会出现一段协议，连继敲回车，当询问是否同意的时候，输入yes，回车。之后会在当前目录下生成一个jdk1.6.0_14目录，你可以将它复制到任何一个目录下。二. 需要配置的环境变量 1. PATH环境变量。

2017-07-24 15:50:23 417

原创 Spark-Streaming之transform操作，实时黑名单过滤案例

Transform操作，应用在DStream上时，可以用于执行任意的RDD到RDD的转换操作。它可以用于实现，DStream API中所没有提供的操作。比如说，DStream API中，并没有提供将一个DStream中的每个batch，与一个特定的RDD进行join的操作。但是我们自己就可以使用transform操作来实现该功能。DStream.join()，只能join其他DStream。在

2017-07-24 15:47:44 1017 1

原创 groupByKey 和reduceByKey 的区别

他们都是要经过shuffle的，groupByKey在方法shuffle之间不会合并原样进行shuffle，。reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传送，所以效率高一点。案例：object GroupyKeyAndReduceByKeyDemo { def main(args: Array[String]): Unit = {

2017-07-14 10:53:28 5084 1

原创 Spark-Streaming的window滑动窗口及热点搜索词统计案例

Spark Streaming提供了滑动窗口操作的支持，从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据，会被聚合起来执行计算操作，然后生成的RDD，会作为window DStream的一个RDD。比如下图中，就是对每三秒钟的数据执行一次滑动窗口计算，这3秒内的3个RDD会被聚合起来进行处理，然后过了两秒钟，又会对最近三秒内的数据执行滑动窗口计算。所以每个滑动窗口操

2017-07-14 10:51:30 990

原创 Spark Streaming和Flume的结合使用

首先在IDEA里面导入依赖包org.apache.sparkspark-streaming-flume_2.10${spark.version}在linux下安装flume，减压flume包，然后到conf里面复制flume-env.sh，修改里面的JavaHOME安装目录就好了1、 Flume主动向Streaming推送数据object Flume

2017-07-14 10:22:55 666

原创基于HDFS的实时计算和wordcount程序

基于HDFS文件的实时计算，其实就是，监控一个HDFS目录，只要其中有新文件出现，就实时处理。相当于处理实时的文件流。streamingContext.fileStream(dataDirectory)streamingContext.fileStream[KeyClass, ValueClass, InputFormatClass](dataDirectory)Spa

2017-07-14 10:13:52 654

原创 Spark-Streaming及其工作原理

1.Spark-Streaming及其工作原理Spark Streaming是Spark Core API的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据，比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理，比如map、reduce、join和wi

2017-07-14 10:10:12 730

原创 Spark Streaming如何使用checkpoint容错

最近在做一个实时流计算的项目，采用的是Spark Steaming，主要是对接Spark方便，一个 Streaming Application 往往需要7*24不间断的跑，所以需要有抵御意外的能力（比如机器或者系统挂掉，JVM crash等）。为了让这成为可能，Spark Streaming需要 checkpoint 足够多信息至一个具有容错设计的存储系统才能让 Application 从失败

2017-07-13 13:30:49 839 1

原创 Spark Streaming 将数据保存在msyql中

Spark Streaming持久化设计模式DStreams输出操作print：打印driver结点上每个Dstream中的前10个batch元素，常用于开发和调试saveAsTextFiles(prefix, [suffix])：将当前Dstream保存为文件，每个interval batch的文件名命名规则基于prefix和suffix："prefix-TIME_IN_MS[.

2017-07-12 13:41:20 466

原创 Spark Streaming 实时监控一个HDFS的文件夹，当新的文件进来（名字不能重复），将对新文件进行处理。

import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Spark

2017-07-11 14:07:18 2345 1

原创 Spark计算结果继续追加在HDFS目录下，不会覆盖之前的文件

由于工作需要，我用scala实现在已将有的目录下面继续写入文件。需要重写MultipleTextOutputFormat这个类，具体的请看下面代码，需要交流可以联系我import java.text.SimpleDateFormatimport java.util.Dateimport org.apache.hadoop.fs.{FileSystem, Path}import or

2017-07-11 13:50:33 6875 3

原创 elasticsearch 之Aggregation聚合

我想做一个按某列字段进行分组统计个数，上网查询推介用Facet，但是在导包的时候，死活找不到，查询资料可知。在es的1.0版本有Facet这个，2.0只有的版本换成了aggregation。所用我们现在用aggregation现实这个功能。

2017-07-06 10:29:24 446

原创 Linux命令

一.Linux目录结构目录作用/Linux系统的根目录，一般只存放目录/bin和/usr/bin命令（二进制）文件目录，包含可供root用户和普通用户所使用的Linux命令和二进制文件，包含shell解析器等/boot系统引导和内核目录，存放引导装载文件

2016-09-13 14:27:43 1019

原创本地多级文件原样上传到hdfs

package com.hdfs;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;

2016-09-13 14:21:19 464

原创 hdfs有多级目录合并文件下载到本地（递归下载）

package com.hdfs;import java.io.FileOutputStream;import java.io.OutputStream;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.ha

2016-09-13 13:46:37 3530

原创本地多级文件合并上传到hdfs（递归上传）

package com.hdfs;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;

2016-09-13 13:26:11 1076

azkaban-3.38安装包

azkaban需要下载后自己手动编译，由于网速问题，我在这里编译好供大家使用

2018-05-14

centos7的febootstrap完整安装rpm包

使用 febootstrap来制作自己的Centos7的docker镜像的。

2018-01-22

febootstrap安装包

Docker images 建立自己的原生镜像需要使用febootstrap工具，需要注意的是，在centos7系列中，默认的源中不带此包

2017-12-18

libaio-0.3.107-10.el6.x86_64.rpm

libaio-0.3.107-10.el6.x86_64.rpm

2017-08-12

MySQL-server-5.5.47-1.linux2.6.x86_64.rpm

MySQL-server-5.5.47-1.linux2.6.x86_64

2017-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除