自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

活的洒脱怪我咯的专栏

专注大数据行业技术总结和分享

  • 博客(23)
  • 资源 (18)
  • 问答 (1)
  • 收藏
  • 关注

原创 【Flink】Basic API的核心概念

目录1.DataSet and DataStream2.Anatomy of a Flink Program(Flink程序剖析)3.Lazy Evaluation(延迟执行)4.Specifying Keys(key的定义)1.Define keys for Tuples(元组键)2.Define keys using Field Expressions(字段表达式键)...

2018-12-29 15:19:54 818

原创 【Flink】核心概念

目录1、Dataflow Programming Model(Dataflow编程模型)1.1、Levels of Abstraction(抽象层)1.2、Programs and Dataflows(编程和数据流)1.3、Parallel Dataflows(并行数据流图)1.4、Windows(窗口)1.5、Time(时间)1.6、Stateful Operatio...

2018-12-21 17:55:19 1206 1

原创 Storm的默认配置参数

Storm的默认参数配置:在defaults.yaml文件中https://github.com/apache/storm/blob/v1.0.6/conf/defaults.yaml java.library.path: "/usr/local/lib:/opt/local/lib:/usr/lib"### storm.* configs are general configu...

2018-10-31 09:42:58 3556

原创 【Flink】Flink集群部署与YARN集成

1、Standalone软件要求:Java 1.8.x or highersshJAVA_HOME配置You can set this variable in conf/flink-conf.yaml via the env.java.home key.Flink配置:下载解压配置:conf/flink-conf.yaml

2018-01-17 10:11:47 11514 1

原创 HBase性能调优

本文就HBase的优化做一些总结,同时也借鉴了网上的一些方法,设计到从表的设计优化,读写,系统配置优化等1、表的设计优化1.1、预分区默认情况下,在创建表的时候会自动创建一个region分区,当写入数据时候,所有的HBase客户端都会往这个region写数据,直到这个region的达到设置的阈值(默认是256M,可以通过hbase.hregion.max.filesize设置)才进行s

2018-01-10 11:28:31 1261

原创 【异常】SparkStreaming抛出Listener SQLListener threw an exception异常

问题描述SparkStreaming在长时间运行时,偶尔会出现下面的异常:2018-01-08 18:42:03 [ SparkListenerBus:32824468 ] - [ ERROR ] Listener SQLListener threw an exceptionjava.lang.IllegalStateException: Attempted to access ga

2018-01-09 17:41:14 3709

转载 Spark中使用kyro序列化

序列化在分布式系统中扮演着重要的角色,优化Spark程序时,首当其冲的就是对序列化方式的优化。Spark为使用者提供两种序列化方式:Java serialization: 默认的序列化方式。Kryo serialization: 相较于 Java serialization 的方式,速度更快,空间占用更小,但并不支持所有的序列化格式,同时使用的时候需要注册class。spark-sql中默

2018-01-08 10:09:33 9185 2

原创 【异常】SparkStreaming长时间运行出现: Dropping SparkListenerEvent because no remaining room in event queue

问题描述在SparkStreaming任务提交后,经过长时间的运行会在SparkUI的Jobs界面出现Job的执行时间出现几个小时的情况,点进去发现Stage已经处于unkown状态,如下图:查看日志后发现下面ERROR异常:2018-01-06 16:42:03 [ dag-scheduler-event-loop:600497 ] - [ ERROR ] Dropping Sp

2018-01-08 09:49:56 4268 1

原创 【异常】Spark写入HBase时写入DataNode失败:dfs.client.block.write.replace-datanode-on-failure.policy

问题描述:在SparkStreaming长时间写入HBase的时候,会下面的异常问题:2017-12-24 23:20:34 [ SparkListenerBus:540107357 ] - [ ERROR ] Listener EventLoggingListener threw an exceptionjava.io.IOException: Failed to replace

2017-12-25 10:46:27 6474

原创 【异常】elasticsearch的RestClientAPI请求超时问题:java.lang.RuntimeException: error while performing request

问题描述:在Spark中使用elasticsearch的RestClient API在读取es中数据时,出现TimeoutException,在之前的优化的中做下面的超时设置,这个只能解决request retries exceeded max retry timeout [30000]这种超时:RestClient build = RestClient.builder(httpHosts

2017-12-19 10:00:37 38971 1

原创 【异常】使用Elasticsearch的REST Client的An HTTP line is larger than 4096 bytes

问题描述:在使用Elasticsearch的RestHightClient API 去搜索ES数据,当请求的参数过长的出现下面的异常:{"type":"too_long_frame_exception","reason":"An HTTP line is larger than 4096 bytes."},默认情况下ES对请求参数设置为4K,如果遇到请求参数长度限制可以在elasticse

2017-12-04 10:13:06 11487

原创 【异常】SparkSession执行action操作时java.lang.ClassNotFoundException: org.codehaus.commons.compiler.Unchecked

org.spark_project.guava.util.concurrent.ExecutionError: java.lang.NoClassDefFoundError: org/codehaus/commons/compiler/UncheckedCompileException at org.spark_project.guava.cache.LocalCache$Segment.get(LocalCache.java:2261) at org.spark_project.guava.cach

2017-12-01 14:43:39 6922 1

原创 【异常】关于使用ES的RestHighLevel JavaAPI执行search操作时,参数的问题

问题描述:在使用ES的JavaRest API 的RestHighLevelClient,执行searchRequest操作时,出现部分请求参数不能识别的情况,如下:contains unrecognized parameters: [batched_reduce_size], [typed_keys]]ElasticsearchStatusException[Elasticsea

2017-11-30 13:32:32 10575 4

原创 Spark Kafka(createDirectStream)自己管理offset

1、SparkStreaming中使用Kafka的createDirectStream自己管理offset在Spark Streaming中,目前官方推荐的方式是createDirectStream方式,但是这种方式就需要我们自己去管理offset。目前的资料大部分是通过scala来实现的,并且实现套路都是一样的,我自己根据scala的实现改成了Java的方式,后面又相应的实现。Dir

2017-10-25 12:29:24 5845 9

原创 Spark Bulkload(Java)

1、使用Spark通过Bulkload的方式导数据到Hbase在未用Bulkload写Hbase时,使用RDD进行封装为Tuple2的KVRDD,然后通过saveAsNewAPIHadoopDataset写Hbase,非常慢,400G的数据大概写了2H+还没写完,后面没有办法就考虑使用Bulkload来导入数据。在测试之前网上很多资料都是Scala版本的,并且实现都是单个列来操作,实际

2017-10-25 11:31:39 3875 1

原创 spark源码分析(2)-源码阅读环境准备

在前面介绍wordcount例子时没有对spark源码阅读环境的准备进行说明,本文就主要介绍Spark源码阅读环境的构建1、环境准备操作系统采用Ubuntu14.04(案例采用虚拟机中安装模式,桥接模式可访问外网)下载JDK1.7+,Scala2.10(spark 1.6.3之前采用的是2.10版本,spark2.0之后采用scala2.11版本),SBT,Maven3.3.9下载

2017-03-16 11:33:30 627

原创 Spark源码分析-以wordcount为入口进行spark-submit源码分析

1、用wordcount程序进行spark源码环境准备和程序入口1)Standalone模式启动启动Master,start-master.sh输出:/home/weiw/spark-1.6.3-bin-hadoop2.6/sbin/spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip ubuntu

2017-03-14 17:57:04 1760

原创 presto安装介绍

Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。

2016-03-07 10:38:38 2380

原创 图数据库之neo4j-jdbc的使用

使用JDBC连接neo4j,并对数据库进行操作。与常规数据库的JDBC 连接类似。

2015-08-20 19:52:02 5707

原创 图数据库之Cypher语言

1、什么是Cypher2、写(create、merge、set、delete、remove、foreach、import)3、读(match、optional match、where、start、聚合)4、常规(return、order by、limit、skip、with、unwind、union)5、函数(谓词、标准函数、集合函数、数学函数、字符串函数)

2015-08-20 15:20:53 17858

原创 图数据库-Neo4j介绍与Cypher入门

1、简介Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上形成图谱而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性,如:事务,索引等。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。在一个图中包含两种基本的数据类型:Nodes(节点

2015-08-14 15:01:17 25672 2

原创 Flume+Kafka+SparkStreaming整合

目录1.Flume介绍.21.1 Flume数据源以及输出方式.21.2 Flume的核心概念.21.3 Flume结构.21.4 Flume安装测试.31.5 启动flume42.Kafka介绍.42.1 Kafka产生背景.42.2 Kafka部署结构.42.3 Kafka集群架构.42.4 Kafka基本概念.

2015-08-05 10:49:07 7056 2

原创 分布式查询工具-Apache Drill

Apache Drill是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎,使用ANSI SQL兼容语法,支持本地文件、HDFS、Hive、HBase、MongoDB等后端存储,支持Parquet、JSON、CSV、TSV、PSV等数据格式。受Google的Dremel启发,Drill满足上千节点的PB级别数据的交互式商业智能分析场景。

2015-06-16 10:45:52 8123 2

neo4j-jdbc相关jar

图存储数据-neo4j-JDBC连接使用的相关jar包,已经经过测试完全无问题。

2015-08-20

Apache Drill技术手册

第一部关于Apache Drill的技术文档,该文档属于作者自行整理文档资料,如果误差请谅解。

2015-06-08

android全程学习笔记

android全程学习笔记,更加详细,更全面,包含整个android开发中用到的技术要点和实例。

2014-03-17

java笔试题

java从业者的面试题及其答案,内有大公司的笔试题

2013-05-10

spring参考手册

spring框架的中文文档,清晰的结构和布局,给spring的带来极大的方便

2013-05-09

java问题集

java学习者大多数都要面临一些java问题,能更加深入理解java

2013-05-09

java线程同步

java学习中的线程同步问题,帮助更加深入的了解线程

2013-05-06

Java面试宝典

Java工程面试宝典,包括绝大多数被忽略的Java小知识,但也是企业常问到的。

2013-05-06

jdbc入门通说

java中的数据库连接,jdbc及java database collection.剖析jdbc

2013-05-05

编程的怪圈和通病

编程的怪圈和通病,书上的代码都看的懂,为什么还写不出来呢

2013-05-05

浅析MD5算法

随着网络技术的广泛应用,网络信息安全越来越引起人们的重视。针对数据在存储的时候存在大量的安全问题,目前通常将需要存储的数据进行加密然后再存储,应用MD5算法是一个不错的选择。MD5算法的全称是Message-Digest algorithm 5,是一种用于产生数字签名的单项散列算法。它的作用是让大容量信息在用数字签名软件签署私人密钥前被“压缩”成一种保密的格式,即将一个任意长度的“字节串”通过一个不可逆的字符串变换算法变换成一个128bit的串。

2013-05-05

程序员养生之道

对于程序员的养生问题的关注,帮助程序员提高身体健康

2013-05-05

Ajax中文文档

Ajax中文开发文档,详细的文档内容,简单地索引,结构清晰。

2013-05-05

详细设计说明书

软件工程开发中的详细说明书说明书模板。帮助项目经理、系统分析师有效的分析系统,提高软件的开发,更是软件开发中最详细的开发文档,基本解决系统的大部分问题。

2013-05-05

概要设计说明书

软件工程开发中的概要设计说明书模板。帮助项目经理、系统分析师有效的分析系统,提高软件的开发

2013-05-05

可行性研究报告

软件工程开发中的可行性研究报告模板。帮助项目经理、系统分析师有效的分析系统,提高软件的开发

2013-05-05

电脑选购有关知识

教你如何选择一款即实惠,性能超好的计算机。教你更多的计算机常识

2012-12-29

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除