满岛菜鸟-CSDN博客

原创 Hive报错：stage24 contains a task of very large size；the maximum recommended task size is 100kb

在一个SparkSQL任务中，由于每隔5分钟就要调度一次，偶尔在任务中会出现这个错误：stage24 contains a task of very large size;the maximum recommended task size is 100kb奇怪的是：这个错误有时候并不会干扰程序的正常运行，但是有时候又会导致程序的异常中断，所以在查阅了大量的相关资料之后，采用下面三个方法的组合：（1）调整shuffle partition的数：之前为了避免产生大量的小文件，只使用了10分区，后来调整

2022-03-01 15:13:42 3012

原创 Flink的时间语义总结

在实际的工作中慢慢摸索和使用Flink也有将近一年的时间了，这段时间打算好好总结和整理一下，有兴趣想要了解Flink流处理技术的，看我的这个博客合集就可以了。如果有什么问题可以多多讨论交流。以下进入正文。文章目录1. Flink支持的时间语义2. Watermark机制2.1 背景2.2 作用2.3 种类3.生成时间戳和水位线3.1 方式一：在Source算子中生成3.2 assignTimestampsAndWatermarks4.Watermark分类4.1 Periodic Watermark4.2

2021-09-28 23:02:35 271

weixin_43616627的博客

原创 Hive报错：stage24 contains a task of very large size；the maximum recommended task size is 100kb

原创 Flink的时间语义总结

原创算法的时空复杂度的比较

原创 Python常用的文本处理代码整理

原创 Scala如何在for循环中实现continue和break效果

原创关于Scala中表达式的值

原创 Scala字符串中==和eq的区别

原创 Scala中Unit、Nothing和Null之间的区别概述

原创 Scala数据类型概述

原创 Scala中的多种print输出方式

原创 Scala中标识符命名的注意事项

原创 Scala中变量声明的注意事项

原创 Scala-class与object的区别

原创 Hive-map类型数据的声明、存储和读取

原创 Spark的Shuffle机制

原创图解Spark的任务调度机制

原创图解Spark的Standalone运行模式

原创图解Spark的yarn-client运行模式

原创完全图解Spark的yarn-cluster运行模式

原创图解Spark中CoarseGrainedExecutorBackend的执行流程

原创图解Spark中ApplicationMaster的执行流程

原创图解Spark程序运行时SparkSubmit的执行流程

原创图解Spark中Worker的启动过程

原创 Spark源码分析-Master的onStart()方法是什么时候调用的？

原创 Spark源码解析-Master的启动流程

原创 Scala中样例类和普通类的区别

原创 Scala中Ordering和Ordered的区别

原创 Scala集合中运算符操作的区别总结

原创 Scala中下划线的作用总结

原创 The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH

空空如也

空空如也