骑着蜗牛向前跑-CSDN博客

原创 macbook 上的 redis.conf 在哪里

code /opt/homebrew/Cellar/redis/7.2.3/homebrew.mxcl.redis.plist 文件。从里面可以看到 redis.conf 的路径是 /opt/homebrew/etc/redis.conf。修改完 redis.conf 后重启 redis。

2024-02-28 10:34:09 540 1

原创 kerberos 生成新用户和 keytab 文件

如果想让 Ranger 捕获到 test1 用户，需要将该用户添加到 linux 用户中。几分钟后 test1 会被 Ranger 自动捕获。

2024-02-04 17:35:19 437

原创踩坑 AUTH password called without any password

或者已确定 ”mymaster“

2024-01-18 12:13:44 819

原创 macbook m1 安装 minikube

macbook m1 安装 minikube

2023-12-12 11:45:41 158

原创 Gorm 的关联查询

gorm 与 mybatis-plus 、hibernate 等 ORM 框架一样，为了应对查询场景居多的现象，支持原生 sql 和 api 两种方式读数据库。。gorm 提供的 api 支持关联插入、关联查询、关联更新、关联删除等功能。这篇文章对各种类型关联查询做以介绍。

2023-12-12 10:32:28 239

ti-feature-platform 工程的 api 代码是使用自动生成的。其大致逻辑是：（1）编写遵循 openAPI 规范的 yaml 格式 api 接口文档；（2）使用 oapi-codegen 使用 yaml 文件生成 gin 框架的 server 端代码。oapi-codegen 是代码自动生成工具，除此以外还有其他的工具也具有同等功能。。。这种生成的 server 端代码本身就具有请求参数校验的功能，开发者只需要写业务校验即可，而且能时刻保持 api 文档和代码的一致性。

2023-11-23 10:31:20 367

原创特征漂移指标 PSI

稳定性指的是参与对比两者相同指标差异性很小。模型的输出很可能是决策的依据，如果模型不能适应新数据，这是很大的风险点。因此，监控数据的稳定性并且及时更新模型是一件很重要的事情。

2023-11-06 10:35:13 216

原创解决执行 spark.sql 时版本不兼容的一种方式

当 spark Java jar 包在不同大数据平台执行时如何解决依赖版本不兼容问题

2023-08-18 10:31:25 903

原创 spark-sql : “java.lang.NoSuchFieldError: out“ 异常解决

版本不兼容，cdp 集群中 spark 版本是 2.4.7。Java 工程中使用的是 2.4.0。

2023-07-31 15:41:59 767

原创 java HiveMetaStoreClient kerberos 亲测通过

代码内容很简单，java 使用 HiveMetaStoreClient 读取 Hive 仓库的分区信息。并且配置 kerberos 认证。最近在搞大数据的工作，有时候写代码需要提前在本地做验证，比如：数据格式。result 中的内容。

2023-06-27 21:34:51 633

原创解决macbook中访问 HDFS 时 kerberos 认证失败问题

已经确定的是 macbook 上的大数据文件配置和 kerberos 认证文件全都正确。异常日志显示是找不到 Kerberos tgt 服务。查资料发现找不到 tgt 的原因很多，提出修改 JDK 配置甚至是重启大数据集群，明显不靠谱。访问 HDFS 是没有问题的。备注：上述方式缓存的认证信息使用。服务器将认证信息缓存在文件中，hadoop 访问 HDFS。是不能查看和删除的。重新认证并缓存在文件中。查看缓存的认证信息。

2023-06-08 16:48:23 837

原创 hive 架构及 metastore 功能简单介绍

hive 内部执行过程以及 Metastore 的作用。

2023-05-26 15:09:24 2015

原创 spark 中 RDD、DataFrame、Dataset区别

spark 中 rdd、DataFrame、Dataset 区别

2023-05-15 10:26:10 131

原创 spark crossjoin方法优化

org.apache.spark.SparkException Job aborted due to stage failure: Total size of serialized results of 147936 tasks (1024.0 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

2023-01-05 18:30:25 1113

翻译 driver 是什么

在 Apache Spark 和 PySpark 中的 Spark driver 是什么？在多机集群模式下，PySpark 使用 master(driver) – slave（worker）架构工作，这些机器通过网络相互协作使得任务执行完毕。对于这样的 spark 系统，我们需要单独的机器管理集群，比如：Spark driver。

2023-01-04 10:55:55 702

原创 rdd 相关信息整理

官网描述RDD 是三个单词的首字母缩写，它表示弹性分布式数据集，是 spark 最基本的数据抽像，代表一个不可变、可分区、里面元素可以被并行操作的集合。一组分区列表的集合，即一个 RDD 中包含多个（数据）分区。后期 spark 任务执行RDD时，将一个分区划分为一个 task ，多个 task 并行执行。作用在每一个分片（分区）上的函数。代码中开发者只写了一行操作语句，等真正执行时，该函数会在 RDD 的每个分区上都执行一遍。一个 RDD 会依赖其他多个 RDD，上下 RDD 的依赖关系形成血统

2022-12-07 15:38:17 857

原创 spark on yarn 的 executor、cores、driver 作用及配置

当然内存空间也不是越大越好，要大了集群分配不出来，yarn 直接将任务 kill 了，不过一定程度上提高资源的申请的确可以提高任务执行的效率。提交的应用程序在 AM 中运行起来就是一个 driver，它构建 sparkContext 对象、DAGScheduler 对象、TaskScheduler 对象、将 RDD 操作解析成有向无环图、依据宽窄依赖划分 stage、构建 task、封装 taskSet 等等，这些操作都需要占用内存空间，driver-memory 就是为其分配内存。

2022-11-24 18:14:27 2840

原创 spark on yarn 的执行过程以及日志分析

spark on yarn 的执行过程以及日志分析

2022-11-20 20:01:00 1952

原创 padlepadle 文档抽取问答系统构建镜像

padlepadle 文档抽取问答系统构建镜像。

2022-11-09 21:11:47 118

原创显卡、显卡驱动、cuda、cudnn 通俗解释及深度学习环境搭建

显卡、显卡驱动、cuda、cudnn、通俗解释及安装。

2022-11-09 20:58:18 3867

原创 flask 全局异常处理

flask 全局异常处理

2022-11-09 18:38:46 1433

原创 mysql 变更操作

会根据主键或者唯一索引判断该条记录是否存在，如果存在则先删除此行数据，再插入新的数据；所以使用 replace into 需要注意的是表中必须存在主键或者唯一索引，不然的话会直接插入，导致数据重复。上述操作只是个 demo 演示，真正的生产环境可能表中的数据很多，全表操作不现实。备份和修改时需要加上 where 条件，修改哪块备份哪块。生产环境下有时需要更新直接修改数据库，为防止数据操作异常导致数据丢失，大都是先备份再操作，操作失败时回滚备份。修改操作：删除 qrtz_triggers 中的一行数据。

2022-10-31 19:27:23 406

原创 Failed to determine a suitable driver class

Description:Failed to configure a DataSource: 'url' attribute is not specified and no embedded datasource could be configured.Reason: Failed to determine a suitable driver classAction:Consider the following: If you want an embedded database (H2,

2022-10-19 15:30:49 422

原创提高 yarn 平台任务的并发执行数量

让 yarn 同事执行多个任务，可以提高集群资源的利用效率，也提高了任务的执行效率。description 写的很清楚：所有正在运行的 application 使用的资源占集群总资源的最大百分比。经常会看到一个现象，RUNNING 状态的 application 使用的内存资源大于我们提交任务时申请的资源数。yarn 平台为任务分配资源的时候，有最小资源分配数和最大资源分配数的限制，且这两个限制都可以通过配置参数修改。实际 executor 分配的内存 = 申请的内存 + 额外配置的内存。

2022-10-10 16:07:22 2185

原创 spring 单元测试为 logback 添加环境变量

spring 单元测试为 logback 添加环境变量

2022-09-07 12:17:03 1560

原创 kubernetes hostAliases 使用

kubernetes hostAliases 使用

2022-08-22 18:12:11 369

原创解决 kubernetes 挂载目录权限的问题。

解决 kubernetes 挂载目录权限的问题

2022-08-19 15:55:45 9930

原创 java 创建 777 权限的目录

java创建目录大都是 777 权限的目录

2022-08-15 17:08:59 2038

原创 java 时间类型和 mysql 时间类型对应关系

java 时间类型和 mysql 时间类型对应关系

2022-08-07 13:02:27 671

原创 java 从 HDFS 读取数据到本地文件

java 代码从 hdfs 读取数据到本地文件并合并数据

2022-08-07 12:32:13 991

原创 maven 打 jar 包（包含依赖）

maven 打 scala jar包包含依赖。

2022-08-03 16:25:07 262

原创两种 java 向 yarn 提交 spark 任务命令的区别

client.run() client.submitApplication()client.monitorApplication

2022-07-26 20:51:29 582

原创 spark job 使用log4j appender 追加日志到本地文件或者mysql

park job 使用log4j appender 追加日志到本地或者mysql

2022-07-26 15:07:10 697

原创 log4j2 jdbc appender

项目要求将关键日志存储到mysql中，遂研究下log4j2…。

2022-07-22 20:30:35 646

原创连接ResourceManager 失败

ipc.Client: Retrying connect to server * Already tried 0 time(s)

2022-07-20 16:16:30 733

原创 beeline 连接 hiveserver2 失败

org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: deployer is not allowed to impersonate anonymous (state=08S01,code=0)

2022-07-19 16:50:24 594

原创 mysql 删库失败

Error Dropping Database (Can't rmdir '.hive\', errno: 17)

2022-07-18 15:51:52 1391

原创 spark-submit 提交优化

从日志中看到：因为既没有指定，也没有指定，spark 转向将 SPARK_HOME 下的库文件上传。实则是将文件打包成再上传到 hdfs 的指定目录下。_spark_libs__1866547205795269356.zip 文件中总共有 226 jar包，每次提交任务就得打包上传zip文件，这个是很耗时间的，如果 jar 很多或者网络不咋地，这里肯定会砸锅。官方文档中有...

2022-07-13 14:38:09 358

原创 spring boot 内部执行 spark submit

etrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

2022-07-08 19:42:37 1077 1

log4j2 jdbc appender 实现将日志保存到 mysql。

空空如也