唐予之_-CSDN博客

原创 Spark性能调优系列目录

Spark性能调优系列目录：普通调优性能调优之在实际项目中分配更多的资源性能调优之在实际项目中调节并行度性能调优之在实际项目中，重构RDD架构以及RDD持久化性能调优之在实际项目中广播大变量性能调优之在实际项目中使用Kryo序列化性能调优之在实际项目中，使用fastutil优化数据格式性能调优之在实际项目中调节数据本地化等待时长jvm调优JVM调优之原理概述以及降低cache操作

2016-09-19 16:06:09 765

原创【问题解决记录】idea maven下载依赖失败

设置jdk for importer。问题：maven下载依赖失败。

2024-02-21 11:42:31 353

问题：maven下载依赖失败java.lang.RuntimeException: Cannot reconnect. at org.jetbrains.idea.maven.server.RemoteObjectWrapper.perform(RemoteObjectWrapper.java:82) at org.jetbrains.idea.maven.server.MavenEmbedderWrapper.customizeForResolve(MavenEmbedderWrapper.java

2021-08-30 10:41:27 561

原创改写flink kafka consumer实现自定义读取消息及控制

背景：flink1.8实现暂停消费kafka并能接受到通知，继续消费kafka需求描述：实现思路类1：package org.apache.flink.streaming.connectors.kafka.internal;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafk

2020-12-06 23:30:24 1508

原创 carbondata2.0.1初体验

一、更方便的部署配置模式只需要增加一个conf 即可，不再需要配置carbon的storepathspark-shell --conf spark.sql.extensions=org.apache.spark.sql.CarbonExtensions --jars /Users/hulb/opt/third/spark-2.4.3-bin-hadoop2.7/jars/apache-carbondata-2.0.1-bin-spark2.4.5-hadoop2.7.2.jar二、启动后直接使用sp

2020-06-04 14:16:21 679

原创 Alluxio、Presto 集成Kerberos

一、Kerberos安装与配置kerberos简介：Kerberos 是一个安全的网络认证协议，支持客户端和服务端不需要在网络上传输密码就可以进行认证。Kerberos 采用通过对称加密算法生成时间敏感的票据。在安全范式中Kerberos 的三个脑袋是指：尝试认证的用户是谁。客户端要认证哪个服务。Kerberos 安全服务中心作为密钥分发中心（Key Distribution Cent...

2019-11-30 16:41:55 1185

原创 ConcurrentHashMap的putVal

/*putVal(K key, V value, boolean onlyIfAbsent)方法干的工作如下：1、检查key/value是否为空，如果为空，则抛异常，否则进行22、进入for死循环，进行33、检查table是否初始化了，如果没有，则调用initTable()进行初始化然后进行 2，否则进行44、根据key的hash值计算出其应该在table中储存的位置i，取出table[...

2019-09-26 15:02:40 1076

原创 Flink中的一些概念区分

1.各个执行Graph2.JobManager和JobMaster3.Task？Slot？StreamTask？4.Checkpoint？5.BarrierBuffer和BarrierTracker?1.图生成StreamGraphJobGraph:StreamingJobGraphGenerator.createJobGraph()-jobvertex-JobGraph...

2019-07-27 14:54:52 337

转载 Vim 快捷键整理

一、移动光标1、左移h、右移l、下移j、上移k2、向下翻页ctrl + f，向上翻页ctrl + b3、向下翻半页ctrl + d，向上翻半页ctrl + u4、移动到行尾$，移动到行首0（数字），移动到行首第一个字符处^5、移动光标到下一个句子），移动光标到上一个句子（6、移动到段首{，移动到段尾}7、移动到下一个词w，移动到上一个词b8、移动到文档开始gg，移动到文档结束G...

2019-06-05 14:58:39 137

原创 Flink 使用Memory State导致OOM问题与解决

一、现象1.1 程序现象程序是处理一个业务由2个表、4条数据、互相Join形成2条结果。Flink读取Kafka。模拟数据程序持续往Kafka插入数据,在TaskManager只有较低内存时，模拟了2000次插入（8000条数据时）,Flink的TaskManager就发生了OOM问题。使用jstat -gcutil 查看JVM进程发现Old区域在年轻代做垃圾回收时,每次持续5%左右的增长，直...

2019-05-29 11:33:01 6393

原创 Hadoop MapReduce任务设置yarn的队列

网上很多回答，都是：yarn jar app.jar com.xxx.mainClass -D mapreduce.job.queuename=default args1 args2但是这样设置并不能生效！！！！！是有问题的！！！！！网上的所有设置都是基于hadoop官方的example。example中有这样一段代码。会将-D的配置进行处理，加入到Configuration中以wor...

2018-12-21 14:45:50 3378 1

原创最近写Flink on Yarn程序遇到的一些问题

1.UDF造成的compile 编译失败class GetDay() extends ScalarFunction{// 这个变量千万不能定义在这里，否则调试没问题，on yarn运行会编译出错// val simpleDateFormat = new SimpleDateFormat(&quot;yyyyMMdd&quot;) def eval():String = { val simpleD...

2018-10-29 23:16:17 2945 3

原创使用Flink新的Kafka Connector API读取Kafka Json格式数据

新的API比较好用。设置一个Json的Format，设置一个schema。读取，就完事了。自动注册成相应schema的表。更多内容参考：https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/table/connect.html#kafka-connectorpackage org.apache.flink.stream...

2018-10-27 20:29:06 15808 14

原创 Flink DataStream /DataSet 与Table的互相转化

Flink DataStream /DataSet 与Table的互相转化一、DataStream or DataSet to Table1.1 Register a DataStream or DataSet as Table// get TableEnvironment // registration of a DataSet is equivalentval tableEnv = ...

2018-10-23 11:17:58 16523 1

原创自定义实现Structured Streaming的Sink（以MySQLSink为例）

一、步骤二、代码三、效果

2018-08-29 21:15:35 3902 8

原创 mvn 的一些常用命令与插件

1.mvn install 2.mvn clean 清理target下的“文件” 3.mvn clean package 根据插件配置打包4.mvn clean package -Dmaven.test.skip=true5.mvn deploy5.mvn dependency:copy-dependencies -DoutputDirectory=lib/ -Dinc...

2018-08-29 18:07:54 422

原创 Mac 编译Hadoop

Mac 编译Hadoop一、本地先安装protobufmac上安装protobuf2.5.0二、编译HadoophulbdeMacBook-Pro:hadoop-branch-2.7.4 hulb$ mvn package -Pdist -DskipTests -Dtar全程小烧了一会CPU ，无异常，一次成功。[INFO] Executed tasks...

2018-07-16 11:10:06 461 1

原创 mac上安装protobuf2.5.0

mac上安装protobuf2.5.0在github上找到相应版本,下载protobuf2.5 https://github.com/google/protobuf/releases?after=v3.0.0-alpha-4.1解压:tar -zxf protobuf-2.5.0.tar.gzcd:cd protobuf-2.5.0设置编译目录:./c...

2018-07-16 10:52:49 2434

原创 Java Scala 混合编程导致编译失败，【找不到符号】问题解决

大致就是工程里分了 java 代码和 scala 代码。然后在java代码中引用了 scala 的代码。运行不报错。但是打包就是一直报错。[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on proj...

2018-07-10 20:45:35 4070

原创 Java中的锁

Java中的锁宏观分类：名称乐观锁悲观锁特点读多写少, 遇到并发写的可能性低认为写多，遇到并发写的可能性高上锁时机读不上锁，更新时，上锁读写都上锁实现 CAS【读-比较-写】 CAS乐观锁—转换—> 悲观锁ReentrantLock 代表类型细分： ...

2018-07-09 17:05:38 332

原创 Hive 中文分区展示乱码注释乱码问题

遇到神一样的客户，遇到神一样的问题，用神一样的脚本来解决。神问题：1.要求分区名是中文例如 dt=今天/city=杭州插入不进去：2.Select * from table 时,展示乱码例如：hive&gt; &gt; select * from test_table_xuehuan13;OK工作流目录 ?????可见这里本来两个都是中文结果分区字段显示...

2018-07-06 17:15:40 4271

原创 Spark Whole Stage Codegen 解析

Spark Whole Stage Codegen 解析本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体

2018-06-21 00:13:22 6019

原创 Spark Structured Streaming Continuous模式（一）

Spark Structured Streaming 的Continuous模式是Spark 2.3 引入的一种持续计算模型。相比于之前的微批处理达到10ms内的延迟。首先还是展示一个example:import java.utilimport java.util.UUIDimport com.alibaba.fastjson.JSONimport org.apache.sp...

2018-06-21 00:10:31 1873

原创【思维导图】Parquet Orc CarbonData 三种列式存储格式对比

Parquet Orc CarbonData三种存储格式对比

2018-06-20 23:50:59 3230

原创 Structured Streaming 动态流 join 静态流 Example

Structured Streaming 动态流 join 静态流 ExampleSpark 代码/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with *...

2018-05-24 16:27:19 1875

原创 Spark Streaming的Event Time和WaterMark理解

EventTime即事件真正生成的时间。例如一个用户在10：06点击了一个按钮。记录在系统中为10：06。这条数据发送到Kafka，又到了Spark Streaming中处理，已经是10：08了。这个处理的时间就是process Time。Water Mark即这个时间点之前的数据都到达了。例如现在是10:20 ,但是water Mark是 10：10 分，那么认为，10：10之前的数据都已经...

2018-05-19 11:38:53 5629

原创 Ranger与Kerberos整合

最近调研了Ranger和Kerveros的结合，基于Ranger可以把没有权限变成有权限，在Kerberos基础上搭建了Ranger，进行细粒度权限控制的探索。流程记录如下。1.在Ambari上安装了Kerberos，HDFS，Yarn，Hive。Pricaple。需要生成Keytab。2.安装Ranger后需要在Ranger的配置项中，打开Hive、HDFS、Yarn的配置。并根据官网做相应配置...

2018-05-19 10:43:15 6533 2

原创 carbonData使用文档

一、部署下载源码编译mvn -DskipTests -Pspark-2.1 -Dspark.version=2.1.0 clean packagemvn -DskipTests -Pspark-2.2 -Dspark.version=2.2.1 clean package修改配置文件二、启动：spark-shell --jars carbonlib/carbondata_2.11-1.1.1-sh...

2018-02-09 10:42:02 1569 1

原创本地调试（local debug）Hive源码

本地调试（local debug）本次调试本为了修改HiveServer2 以提供授权校验接口，因此下了Hive源码准备调试一番。主要测试了CliDriver和HiveServer2.主要流程参考了这篇文文章的实现：http://b865a395.wiz03.com/share/s/2Upqel3Vs45O2q1eTZ1wyr_O0urkGT29lAco2pq2Ol26_NM3 在此篇文章对细节

2018-01-17 20:30:54 2572

原创 Shuffle 调优之 HashShuffleManager 和 SortShuffleManager

spark.shuffle.manager：hash、sort、tungsten-sort（自己实现内存管理）spark.shuffle.sort.bypassMergeThreshold：200spark 1.2.x版本以后，默认的shuffle manager，是什么呢？ SortShuffleManager。SortShuffleManager与HashShuffleManager两点不同

2017-12-23 16:25:27 1718

原创 shuffle 调优之条件map端内存缓存与reduce端内存占比

spark.shuffle.file.buffer，默认32k spark.shuffle.memoryFraction，0.2map端内存缓冲，reduce端内存占比；很多资料、网上视频，都会说，这两个参数，是调节shuffle性能的不二选择，很有效果的样子，实际上，不是这样的。以实际的生产经验来说，这两个参数没有那么重要，往往来说，shuffle的性能不是因为这方面的原因导致的但是，有一点

2017-12-23 16:19:21 1071

原创 shuffle 调优之合并map端的输出

Shuffle 情景描述：每个Executor 有2个 cpu core 4个task。 task是线程执行的。2个core ，4个task的话，就要先并行执行2个task，再跑另外2个task。第一个stage，每个task，都会给第二个stage的每个task创建一份map端的输出文件第二个stage，每个task，会到各个节点上面去，拉取第一个stage每个task输出的，属于自己的

2017-12-23 16:15:04 600

原创 shuffle 调优之原理概述

一、什么情况下会发生Shuffle？在spark中，主要是以下几个算子：groupByKey reduceByKeyreduceByKeyJoin二、什么是shuffle？groupByKey，要把分布在集群各个节点上的数据中的同一个key，对应的values，都给集中到一块儿，集中到集群中同一个节点上，更严密一点说，就是集中到一个节点的一个executor的一个task中。然后呢，集中一

2017-12-23 16:03:51 743

原创 Flink DataSet API 使用示范

DataSet API 编程示范package com.dtwave.flink.exampleimport org.apache.flink.api.common.functions._import org.apache.flink.api.common.operators.Orderimport org.apache.flink.api.common.operators.base.

2017-11-30 00:00:34 5895

原创 spark+carbondata使用

一、部署下载源码编译修改配置文件注意： 1.1.1 不支持spark2.2 会报错。二、启动： spark-shell –jars carbonlib/carbondata_2.11-1.1.1-shade-hadoop2.7.2.jar三、使用3.1创建上下文import org.apache.spark.sql.SparkSessionimport org.apache.spark.sq

2017-09-20 17:08:29 2225

原创 Presto单机/集群模式安装笔记

Presto单机/集群模式安装笔记一、安装环境JDK版本要求: 1.9.0_92+二、安装步骤官网下载最新版本https://prestodb.io/docs/current/installation/deployment.html 配置，参考网址http://prestodb-china.com/docs/current/installation/deployment.htmletc/no

2017-08-29 00:05:06 2800

原创 Hive UDF /UDAF /UDTF Example

一些Hive UDF UDAF UDTF 例子来源于Hive源码UDF：1/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE

2017-08-15 21:17:54 844

原创 JVM成长之路,记录一次内存溢出导致频繁FGC的问题排查及解决

现象：现象截图：内存：命令：jmap -heap30069 GC截图：FGC 次数 19529 次！！！何等的恐怖！！！！！命令： jstat -gcutil 30069 1000现象描述：Node模块启动后收到请求却未能响应。一直在频繁的FGC。新生代内

2017-08-04 21:57:54 16028 5

原创 Spark RPC （思维导图）

高清大图请点击：http://img.blog.csdn.net/20170718001345234?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbHhoYW5kbGJi/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

2017-07-18 00:14:34 528

原创 Spark 广播（思维导图）

高清大图请点击链接：图片地址

2017-07-18 00:11:12 546

如何做好一个ppt演讲

空空如也