- 博客(26)
- 资源 (4)
- 收藏
- 关注
原创 kafka cluster id不匹配问题解决
The Cluster ID xxxx doesn't match stored clusterId Some(xxxx) in meta.properties. The broker is trying to join the wrong cluster. Configured zookeeper.connect may be wrong.
2023-01-10 11:06:12 1262
原创 ClassCastException field org.apache.spark.rdd.MapPartitionsRDD.f of type scala.Function3 in instance
cannot assign instance of java.lang.invoke.SerializedLambda
2022-08-01 11:34:58 646
原创 Linux Centos7.6下安装zsh、oh-my-zsh、powerlevel10k美化终端
踩了无数的坑所以特意在此总结一下1、安装gitsudo yum install -y git2、安装zsh如果你centos版本为7x,那就无法自动安装zsh,后续安装的p10K主题要求的zsh最低版本为5.1,而7x所安装的是5.0;所以在此需要手动编译源码后安装zsh这里选择zsh 5.8版本①、clone zsh我这里是干净的机器所以我就直接克隆,如果你已经安装过zsh了那么需要先删除(yum remove zsh)原来的后再手动安装git clone -b zsh-5.8 --dep
2022-02-18 16:06:26 2232
原创 git基本概念及命令大全(适合入门)
大家可以收藏起来慢慢看,此文档绝对包含了日常所需要的命令,以及一些解决问题的命令,强烈建议收藏!!目录一、概念基本命令从git服务器拉取代码配置开发者用户名和邮箱对分支重命名查看分支列表删除分支切换分支查看文件变动状态添加提交推送远端看日志为项目标记里程碑将本地修改暂存移动或重命名文件、目录从工作区和暂存区移除文件删除远程分支查看远程分支删除以提交再远程仓库的文件关联远程仓库首次推送查看分支合并图全部查看当前最后一次提交的commit_id可以查看已经commit 但是还没有push 的代码查看到未传送
2022-02-18 10:49:56 73
原创 SpringBoot+spark+scala用spark-submit的方式提交springboot任务
前言:突发奇想,将SpringBoot、spark、scala结合起来然后打成一个jar包,将jar包用spark目录一、使用方式二、代码结构application.ymlSparkConfig(java)collect(java)Service(scala)一、使用方式github地址:https://github.com/sgr-china/SpringSpark.git将项目克隆下来后,把自己本地hdfs-site.xml、core-site.xml、hive-site.xml放到resour
2021-12-17 11:50:03 2324
原创 Spark3 AQE之自动合并Shuffle partition源码解读
Branch:spark-3.0有不对的地方欢迎各位大佬批评指正!相关参数:spark.sql.adaptive.enabled AQE是否开启spark.sql.adaptive.coalescePartitions.enabled 分区合并是否开启spark.sql.adaptive.coalescePartitions.minPartitionNum 合并后最小的分区数,下文我们简称为minPartitionNumspark.sql.adap
2021-12-16 14:43:16 2445 2
原创 Mac ssh localhost免密登录的配置
到手mac用的不是很顺畅配置免密登录本机遇到了点挫折特记录一下1、生成公、私钥ssh-keygen -t rsa -f ~/.ssh/id_rsa_x (输入后出现要输入的直接回车就可)-f可以指定生成的公、私钥的名字(这样就可以一个电脑好几个公私钥方便一电脑多git的方式) 圈的这两个就是刚生成的,剩下的都是git使用的2、追加到authorized_keysssh-copy-id localhost完成后可以看一下authorized_keys的内容3、mac 配置打开系统偏好设置,选
2021-09-02 19:35:31 441
原创 GIt push时出现的Merge branch ‘xxx‘ into ‘xxx‘
虽然不影响使用但是日志中出现太多这样的内容,日志看起来会很冗余。1、背景和同事基于同一个分支共同开发时,我本地落后太多,而同事commit已经领先我很多;按理说我应该先pull一下再commit、push我的内容。我在不知情的情况下push会报如下问题我先pull后就push就成功了,但是git log中就出现了Merge branch ’xxx‘ into ’xxx‘的信息。2、总结操作上的问题,在共同开发时一定要先pull确保代码最新,然后再commit。3、解决方案本地落后太多一定.
2021-08-26 14:31:48 13343 3
原创 解决MapReduce-Yarn问题:错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster
在跑MapReduce任务时,yarn出现了问题问题如下:且通过任何日志都查看不到详细的错误信息,通过ApplicationID也只能查到错误:找不到或无法加载主类这类错误。怀疑是hdfs与yarn之间的都通有问题了。解决措施:命令行输入:hadoop classpath将输出的内容放到yarn-site.xml中将修改的yarn-site.xml发送到所有的机器中,重启yarn即可解决。...
2021-07-27 11:02:56 2288 1
原创 Spark3自适应查询计划(Adaptive Query Execution,AQE)
动态合并shuffle分区(Dynamically coalescing shuffle partitions)动态调整join策略(Dynamically switching join strategies)动态优化数据倾斜join(Dynamically optimizing skew joins)参数:spark.sql.adaptive.enabled 默认关闭,开启此参数后上述三种策略才会执行1、动态优化数据倾斜(Dynamically optimizing skew joins)sp
2021-07-25 18:45:39 1618 2
原创 Spark3新特性之动态分区裁剪(Dynamic Partition Pruning,DPP)
Spark3动态分区裁剪(Dynamic Partition Pruning,DPP)参数:spark.sql.optimizer.dynamicPartitionPruning.enabled默认开启执行条件:①、需要剪裁的表必须是分区表且分区字段必须在on条件中②、join类型必须是 inner、left(右表是分区表)、right(左表是分区表)、left semi(右表是分区表)③、spark.sql.optimizer.dynamicPartitionPruning.useStats
2021-07-25 18:39:51 2091 1
原创 解决java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/JsonInput;Z)
近期工作中遇到了一个这个问题,现记录一下。问题如下:
2021-06-29 17:44:45 1005
原创 AVL树详解及Java实现AVL树(二叉排序树的改进版)左旋、右旋、双旋
AVL树如果一个数组{1,2,3,4,5}构建一颗二叉排序树那么他的高度将会很高,导致树的左边为空;虽然说添加的速度影响不大,但是查找速度大大减慢。上述问题的解决方案就是AVL树。概念:1、AVL树也叫平衡二叉树也叫平衡二叉搜索树,可以保证查询效率很高。2、他的左右两个子树的高度差的绝对值不超过1,并且左右两颗子树都是一个平衡二叉树。代码中有详细注释,大家不妨先把代码拷贝然后再走一遍package com.sgr.avl;/** * @author 科比 */public clas
2021-03-14 15:33:05 180
原创 Java实现二叉排序树(BinarySort(Search)Tree)添加、删除、遍历等功能,代码中有详细注释!!!
介绍:1、对于二叉排序树的任何一个非叶子节点,要求左子节点的值比当前节点的值小,右子节点的值比当前节点的值大。2、如果有相同的值,可以将改节点放在左子树或右子树多说无益,下面直接上代码!!!代码中有详细注释,如有不明白的地方,欢迎大家指出!!package com.sgr.binarysorttree;/** * @author 科比 */public class BinarySortTreeDemo { public static void main(String[] args)
2021-03-12 16:26:09 257
原创 Hadoop的shuffle流程解析
从环形缓存区输出到内存的过程会有分区和排序的流程Reduce是主动从磁盘中去拿数据(远程获取)Shuffle流程(map输出作为输入传给reducer的过程)一、map阶段1、read阶段客户端中输入命令运行jar包,同时将split、job.xml、运行的jar包加载到hdfs中。2、map读取将hdfs中的文件内容读取到内存中去,并通过重写的map方法将内存中的内容按照自己想要的规则读取。通过context.write方法将内容写出,写出的内容已经通过collector.collect
2021-03-12 10:17:49 483
原创 2.7.2-Hadoop切片源码分析
输入文件 rain_in/data.txt、data1.txt、data2.txt(62m) 会产生4个切片1、进入job的任务提交方法job.waitForCompletion2、首先检查job的状态,然后进入提交方法submit();3、ensureState确保状态setUseNewAPI使用新的APIConnect()获得链接的方法,从此方法中能够获得本地或是yarn工作的链接(本地或是yarn)进入connect();4、首先进行判断集群cluster是否为null,如果为nu
2021-03-12 10:08:13 249 3
原创 Huffman树的创建、Huffman应用文件压缩解压缩
一、Huffman树的概念和创建步骤**概念:**给定n个权值作为n个叶子结点,构造一棵二叉树,若该树的带权路径长度(wpl)达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree),还有的书翻译为霍夫曼树。赫夫曼树是带权路径长度最短的树,权值较大的结点离根较近。不懂这些专业术语的同学可以去搜索一下。步骤:1、从小到大进行排序,将每一个数据,每个数据都是一个节点,每个节点都可以看成是一颗最简单的二叉树2、取出根节点权值最小的两颗二叉树3、组成一颗新的二叉树,该新的二叉树的
2021-03-11 14:45:49 136 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人