自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

明哥的IT随笔

大家好!我是明哥,十四年IT经验,十年外企经验,六年大数据经验,目前聚焦于泛大数据生态,包括大数据,数据库,云计算和人工智能。 通过本博客记录工作中踩过的坑和对IT的感悟,欢迎大家关注交流,一起学习,共同进步!

  • 博客(104)
  • 收藏
  • 关注

原创 聊聊复杂网络环境下hdfs的BlockMissingException异常|参数dfs.client.use.datanode.hostname

聊聊复杂网络环境下hdfs的BlockMissingException异常|参数dfs.client.use.datanode.hostname。

2023-09-26 16:36:03 572

原创 开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?

开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?1 Kerberos 环境中 HS2 的认证方式概述大家知道,HIVE 的认证方式可以通过参数 hive.server2.authentication 在服务端进行统一配置,而在开启了 Kerberos 安全认证的大数据环境中:我们可以配置 hive.server2.authentication=kerberos,代表配置 HS2 使用 Kerberos安全认证;我们可以配置 hive.server2.

2023-09-25 17:25:25 417

原创 如何访问TDH中Inceptor 底层的元数据库TxSQL

HIVE的元数据引擎 HMS在底层依赖一个RDBMS元数据库进行元数据的存储查询和管理,该RDBMS常用的有mysql/pg/oracle等,在实践中我们一般使用Mysql;

2023-09-25 17:18:54 545

原创 YARN 远程代码执行(RCE)安全漏洞问题分析与解决方案

某客户使用Tenable.sc扫描安全漏洞后反馈,YARN 存在Remote code execution (RCE) 安全漏洞问题,攻击者可在未经过身份验证的情况下通过该漏洞在受影响主机执行任意命令,最终控制服务器。

2023-04-26 11:14:16 1374 1

原创 聊聊 Zookeeper 的 4lw 与信息安全

最近有个客户在扫描安全漏洞时,反馈 ZOOKEEPER 存在信息泄露问题,即:ZooKeeper默认开启在2181端口,在未进行任何访问控制情况下,攻击者可通过执行envi命令获得系统大量的敏感信息,包括系统名称、Java环境;

2023-04-26 11:13:23 1368

原创 聊聊 IP packet 的 TTL 与 tcp segment 的 MSL

近几年在排查解决应用系统在客户现场遇到的复杂问题时,越来越觉得除了扎实的LINUX操作系统知识,对TCP/IP网络知识的深入理解也是至关重要的。有鉴于此,后续笔者会陆续分享一些网络基础知识和故障排查案例,有兴趣的可以深入交流下。本文介绍下 IP packet 的 TTL 与TCP segment 的 MSL,两者都跟数据包在网络上的生存时间有关。

2023-04-26 11:11:53 616

原创 分享一个 hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题

最近在针对某系统进行性能优化时,发现了一个hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题,该问题具有普适性,故特地拿出来跟大家分享下

2023-03-09 16:38:29 946

原创 分享一个 HIVE SQL 性能优化点-使用公共表表达式 CTE 替换临时表

hive 作业的性能优化是一个永恒的话题,其优化方法也有很多,在此分享一个优化点,即编写 SQL 时使用公共表表达式 CTE 替换临时表,经测试优化效果还不错,尤其是涉及到当量IO的场景。

2023-02-01 11:26:34 1060 1

原创 更改 HIVE 表字段数据类型有哪些注意事项?

更改HIVE 表字段数据类型有哪些注意事项?1. 使用 HIVE 表的常见规范2. 更改HIVE 表字段数据类型的注意事项3. 相关JIRA

2022-12-02 13:36:19 1439

原创 公共大数据集群中如何配置 YARN 的公平调度器和容量调度器

公共大数据集群中如何配置 YARN 的公平调度器和容量调度器1 YARN 资源管理框架与公平/容量调度器2 公平/容量调度器配置原则概述3 如何排查调度器资源配置引起的业务问题4 公平调度器相关重要参数5 容量调度器相关重要参数

2022-11-28 11:02:25 1629

原创 一篇文章彻底理解 HDFS 的安全模式

一篇文章彻底理解 HDFS 的安全模式

2022-11-19 17:53:17 3015

原创 如何杜绝 spark history server ui 的未授权访问?

如何杜绝 spark history server ui 的未授权访问?

2022-11-16 14:03:51 1174

原创 一篇文章彻底理解数据库的各种超时参数

前言数据库的超时参数有哪些?事务超时的含义是什么?查询超时的含义是什么?查询超时的工作机制是什么?套接字超时的含义是什么?查询超时和套接字超时有何关系?如何配置常见数据库的套接字超时?操作系统级别的套接字超时检测机制相关源码与参考连接

2022-11-11 17:33:42 2762

原创 线上 hive on spark 作业执行超时问题排查案例分享

m分享一个某业务系统的线上 hive on spark 作业在高并发下频现作业失败问题的原因分析和解决方法

2022-11-08 09:20:03 2660

原创 如何更改 datax 以支持hive 的 DECIMAL 数据类型?

1. JAVA 数据类型 - float/double 与 BigDecimal2. hive 数据类型 - Double,DECIMAL,Numeric3.如何更改 datax 以支持 hive 的 DECIMAL 数据类型?

2022-11-01 11:59:28 1283

原创 线上数据问题排查案例分享-因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题

线上数据问题排查案例分享-因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题

2022-10-31 10:18:15 342

原创 CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui

在CDH/CDP等大数据平台中,当开启kerberos安全后,如何访问HDFS/YARN/HIVESERVER2 等服务的webui呢?

2022-09-29 09:28:24 1886

原创 大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA?

CDP中如何做到不同业务用户的 HIVE 作业提交到不同的 YARN 队列,以达到资源隔离的目的?

2022-09-22 16:02:17 1841

原创 数据平台发展史-从数据仓库数据湖到数据湖仓

回顾数据平台发展历史,梳理数据平台变迁脉络,更全面准确地理解数据仓库数据湖和数据湖仓!

2022-09-20 18:09:50 2319

原创 开启 Kerberos 安全的大数据环境中,Yarn Container 启动失败导致作业失败

大数据问题排查系列 - 开启 Kerberos 安全的大数据环境中,Yarn Container 启动失败导致 spark/hive 作业失败前言大家好,我是明哥!最近在若干个不同客户现场,都遇到了大数据集群中开启 Kerberos 后,spark/hive 作业提交到YARN 后,因 YARN Container 启动失败作业无法执行的情况,在此总结下背后的知识点,跟大家分享下,希望大家有所收获。1 问题1问题现象某客户现场,大数据集群中开启了 kerberos 安全认证,提交 hive on

2022-09-16 14:12:32 1669

原创 大数据生态安全框架的实现原理与最佳实践(下篇)

大数据生态安全框架的实现原理与最佳实践(下篇)前言 数字化转型大背景下,数据作为企业重要的战略资产,其安全的重要性不言而喻。我们会通过系列文章,来看下大数据生态中安全框架的实现原理与最佳实践,系列文章一共两篇,包含以下章节:大数据生态安全框架概述HDFS 认证详解HDFS 授权详解HIVE 认证详解HIVE 授权详解金融行业大数据安全最佳实践本片文章是下篇,包含上述后三个章节,希望大家喜欢。1. HIVE 认证详解 HIVE 的认证方式,通过参数 hive.server2.authenti

2022-09-14 15:30:17 661

原创 Gartner 网络研讨会 “九问数字化转型” 会后感

Gartner 网络研讨会 “九问数字化转型” 会后感

2022-06-21 16:07:08 331

原创 深入剖析 HIVE 的锁和事务机制

深入剖析 HIVE 的锁和事务机制

2022-06-21 16:05:10 1210

原创 如何使用 DATAX 以 UPSERT 语义更新下游 ORACLE 数据库中的数据?

如何使用 DATAX 以 UPSERT 语义更新下游 ORACLE 数据库中的数据?

2022-06-21 16:04:15 2775

原创 一起架构-某实时分析项目云原生 serverless 架构的设计思路和poc代码实现

某个实时分析项目在 AWS 上的架构设计和 POC 开发,该项目使用了 serverless 的云原生架构,在此跟大家分享下架构设计和 poc 代码的细节

2022-06-13 10:42:17 371

原创 大数据生态安全框架的实现原理与最佳实践(上篇)

下数据生态中安全框架的实现原理与最佳实践,包含以下章节:- 大数据生态安全框架概述- HDFS 认证详解- HDFS 授权详解- HIVE 认证详解- HIVE 授权详解- 金融行业大数据安全最佳实践

2022-06-09 16:44:12 980

原创 为什么不能使用 datax 直接读写 hive acid 事务表?

HIVE 对 ACID 事务表(或表分区)底层文件的目录结构,文件名,和文件格式都有一套严格的规范。

2022-06-07 15:52:32 326

原创 HIVE3 深度剖析 (下篇)

整个系列分为上下两篇文章,涵盖以下章节:1. 从 HIVE 架构的演进看 HIVE 的发展趋势2. 盘点下 HIVE3.X 和 HIVE2.X 的那些重大差异点3. HIVE3.X 的 ORC 事务表详解4. HIVE3.X 的 LEGACY 传统模式详解5. 周边生态如 SPARK/DATAX 如何对接HIVE 3x6. 大数据应用对接 HIVE3.x 的几点建议本片文章是下篇,包含上述后三个章节,希望大家喜欢。

2022-05-16 19:46:31 947

原创 HIVE3 深度剖析 (上篇)

1. 从 HIVE 架构的演进看 HIVE 的发展趋势2. 盘点下 HIVE3.X 和 HIVE2.X 的那些重大差异点3. HIVE3.X 的 ORC 事务表详解4. HIVE3.X 的 LEGACY 传统模式详解5. 周边生态如 SPARK/DATAX 如何对接HIVE 3x6. 大数据应用对接 HIVE3.x 的几点建议

2022-05-11 13:49:17 1526

原创 聊聊 kerberos 的 kinit 命令和 ccache 机制

1. 前言大家好,最近遇到了个 kerberos 相关问题,“客户端节点上执行 kinit -R 命令报错:KDC can’t fulfill requested option while renewing credentials”, 在次跟大家分享下问题的解决方式,和背后的相关知识点,主要涉及到 kerberos 的 kinit 命令和 ccache 机制。2. 问题现象与问题日志问题现象: 客户端执行命令 kinit -R 报错: “KDC can’t fulfill requested opt

2022-03-11 16:34:31 4229

原创 HDFS3.X 系列的 EC 纠删码策略有个安全隐患 HDFS-16420,极端情况下会造成数据丢失

紧急扩散!HDFS3.X 系列的 EC 纠删码策略有个安全隐患 HDFS-16420,极端情况下会造成数据丢失!1. HDFS-16420 BUG 概述HDFS3.X 的 EC 纠删码功能,近期被发现有个 BUG:该 BUG 会导致,以纠删码机制存放的目录和文件,在某些特殊情况下,会被系统误删,从而造成数据丢失。目前 HADOOP 社区已经通过 HDFS-16420 在版本 3.4.0/3.2.3/ 3.3.2 中修复了该 BUG,Cloudera 针对该 BUG 也给出了详细的分析和修复建议:

2022-03-09 13:33:03 1813

原创 JAVA 那些事 - 聊聊那些易混淆的概念:JVM/JRE/JDK,openJDK/oracleJDK,JAVA SE/JAVA EE/Jakarta EE

回顾下JAVA那些易混淆的概念,包括 JVM/JRE/JDK,openJDK/oracleJDK,以及 JAVA SE/JAVA EE/Jakarta EE。

2022-02-15 17:27:47 855

原创 盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后,Ambari 正式退役

盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后,Ambari 正式退役!1. Apache Ambari 正式退役正所谓几家欢乐几家愁,2022 年初,又一款顶级 Apache 大数据项目,正式宣告退役:Apache Ambari 于 2022-01 悄然宣布,项目不再维护,正式进入退役阶段!image笔者听闻该消息,恰逢虎年春节之际,虽然对 Ambari 的退役早有预期,但由于早年与 Ambari 颇有渊源,还是不免唏嘘一场!所以谨以一篇博文,纪念下 A

2022-02-07 16:20:47 1313

原创 聊聊 JDBC 的 executeBatch || 对比下不同数据库对 JDBC batch 的实现细节

聊聊 JDBC 的 executeBatch || 对比下不同数据库对 JDBC batch 的实现细节 || 剖析下 Mysql 的 参数 rewriteBatchedStatements || 剖析下 pg 的参数 reWriteBatchedInserts大家好,我是明哥!上篇博文,“对比下 datax 的 OceanBase/MYSQL 不同数据同步方案的效率差异 || 聊聊参数 rewriteBatchedStatements” 发表后,有小伙伴问到不同数据库对 JDBC 批量更新的实现细节,

2022-01-30 14:05:03 2874

原创 对比下 datax 的 OceanBase/MYSQL 不同数据同步方案的效率差异 || 聊聊参数 rewriteBatchedStatements

对比下 datax 的 OceanBase/MYSQL 不同数据同步方案的效率差异 || 聊聊参数 rewriteBatchedStatements大家好,我是明哥!1. 聊聊信创与 Oceanbase 数据库熟悉金融行业的小伙伴们大都知道,银行券商基金公司保险公司等金融行业的中大型企业,都在积极响应国家号召,高举信创的大旗,从服务器/操作系统/数据库/中间件等软件生态的方方面面,探索国产化的各种可能方案。其中在数据库层面,我司目前推出的方案主要有三个:对接蚂蚁的 Oceanbase;对接 Pi

2022-01-28 13:44:46 1836

原创 SPARK 应用如何快读应对 LOG4J 系列安全漏洞

SPARK 应用如何快速应对 LOG4J 的系列安全漏洞大家好,我是明哥!1. CDH/HDP/CDP 等大数据平台中如何快速应对 LOG4J2 的JNDI系列漏洞在前段时间发表的博文 “...

2022-01-19 21:00:00 1991

原创 大数据集群节点磁盘负载不均衡怎么办?

大数据集群节点磁盘负载不均衡怎么办?大家好,我是明哥!“大数据集群节点磁盘负载不均衡”的问题,相信大数据集群管理员并不陌生,本片文章,我们就简单分享下,如何应对上述问题。问题现象大数据集...

2022-01-08 09:00:00 971

原创 一篇文章彻底理解 HIVE 常见的三种 AUTHENTICATION 认证机制的配置与使用

一篇文章彻底理解 HIVE 常见的三种 AUTHENTICATION 认证机制的配置与使用大家好,我是明哥!本片博文,分享下 HIVE 常见的三种 AUTHENTICATION 认证机制,...

2022-01-05 08:00:00 2997

原创 CDH/HDP/CDP等大数据平台中如何快速应对LOG4J的JNDI系列漏洞

大家好,我是明哥!近期 LOG4J 围绕JNDI的安全漏洞频繁暴雷,着实让小伙伴们忙活了一阵。本文我们就一起来看下,CDH/HDP/CDP 等大数据平台中如何快速应对 LOG4J 的 JN...

2022-01-01 09:00:00 1061

原创 一篇文章彻底理解大数据的列式存储

一篇文章彻底理解大数据的列式存储大家好,我是明哥!本片文章,跟大家一起探讨下,列式存储与数据质量的相关话题。文章目录一篇文章彻底理解大数据的列式存储1. 什么是列式存储2. 深入了解列式存储 - 以 Parquet 为例3. 行式存储与列式存储的优劣势都有哪些4. 列式存储与数据质量1. 什么是列式存储所谓行式存储,指存储结构化数据时,在底层的存储介质上,数据是以行的方式来组织的,即存储完一条记录的所有字段,再存储下一条数据的所以字段,以此类推;所谓列式存储,指存储结构化数据时,在底层的

2021-12-27 16:37:29 2282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除