头顶榴莲树-CSDN博客

原创 CDH6.x安装教程(附带整合kerberos)

一、安装前准备设置HOST vi /etc/hosts 关闭防火墙 sudo systemctl disable firewalldsudo systemctl stop firewalld 设置SELinux vi /etc/selinux/config 将SELINUX=enforcing 改为SELINUX=permissive，然后重启服务器，或者执行下面命令： setenforce 0 开启NTP服务 # 安装NTP服务.....

2021-02-02 17:50:21 4943 10

原创社区版Visual Studio通过安装开源插件Fine Code Coverage实现单元测试代码覆盖率统计

Fine Code Coverage 单元测试覆盖率

2023-10-20 16:11:12 1624 5

原创如何在多版本C#工程上添加程序集

添加程序集和添加nuget包不一样，添加程序集可以在工程依赖下的程序集栏目中看到。

2023-09-12 18:35:36 1320

原创 EA画时序图时引用类图元素

1、时序图界面右键->插入其他元素。点击【操作】，选择元素中的方法。右键连接线->【特性】选择【派生指标上线】3、调用方法自动匹配。

2023-05-16 15:23:05 1498

原创 EA设计图导出为图片

导出完成后会在导出目录下生成Images目录，里面是要导出的图片。最后点击【导出】按钮。

2023-05-16 11:41:24 2663 1

原创基于Prometheus+Grafana实现对Tomcat监控

prometheus+grafana监控tomcat

2023-03-13 15:25:30 911

原创离线安装elasticdump

离线安装elasticdump

2022-12-02 14:51:34 1301

原创 maven项目引入外部依赖后编译时无法找到外部依赖问题

maven编译插件

2022-11-16 10:19:01 1543

原创 hive查询报错readDirect unsupported in RemoteBlockReader

readDirect unsupported in RemoteBlockReader

2022-10-17 14:15:58 479

原创 FlinkSQL消费Kafka写入Hive表

flinkSQL消费kafka实时写入hive表

2022-10-13 11:08:45 7173 4

原创 Could not find any format factory for identifier ‘parquet‘ in the classpath

Could not find any format factory for identifier 'parquet' in the classpath

2022-10-11 13:38:18 1000

原创 Flink任务OOM问题

当我们要读取大表时，例如hive表，很容易出现task内存不够用的情况，当这种情况出现时，任务可能会报出GC异常或者TaskManager心跳异常等，如下：1、java.lang.OutOfMemoryError: GC overhead limit exceeded2、java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id 【containerID】 timed out.这时我们可以观察TaskMana

2022-04-13 14:43:18 5054

原创 Java运行时打印某个类所属依赖包的绝对路径

import com.google.common.base.Preconditions;public class T1{ public static void main(String[] args){ Class targetclass = Preconditions.class; String className = targetclass.getName(); className = className.replace('.', '/');.

2022-04-01 16:23:47 1034

原创 kylin-4.0.1启动报错：NoSuchMethodError: org.apache.tomcat.JarScanner.scan

环境：HDP-3.1.5Apache Spark-2.4.7Kylin-4.0.1启动后logs/kylin.out日志如下Caused by: java.lang.NoSuchMethodError: org.apache.tomcat.JarScanner.scan(Lorg/apache/tomcat/JarScanType;Ljavax/servlet/ServletContext;Lorg/apache/tomcat/JarScannerCallback;)V

2022-03-29 17:27:31 1503

原创 There is no available StoreManager of type “rdbms“-HDP-3.1.5集成Spark-3.1.1报错

详细日志：22/03/29 09:02:47 ERROR Datastore: Exception thrown creating StoreManager. See the nested exceptionThere is no available StoreManager of type "rdbms". Make sure that you have put the relevant DataNucleus store plugin in your CLASSPATH and if defin

2022-03-29 17:05:32 1918

原创 cdh安装教程

CDH安装超强指南

2022-03-24 18:09:45 5741 2

原创 Invalid configuration of tez jars, tez.lib.uris is not defined in the configuration

HDP3使用apache版Spark2.4查询hive时报错：Caused by: java.lang.RuntimeException: org.apache.tez.dag.api.TezUncheckedException: Invalid configuration of tez jars, tez.lib.uris is not defined in the configuration at org.apache.hadoop.hive.ql.session.SessionState.st

2022-03-24 16:22:09 2458

原创 Structured Streaming消费带kerberos认证的kafka问题解决

主要错误：SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Server not found in Kerberos database (7) - LOOKING_UP_SERVER)]kafka连接配置如下：val df = spark .readStream .format("kafka")

2022-03-01 10:31:56 3393

原创 Spark作业一直处于ACCEPTED状态

原因1：集群处于不健康状态打开yarn监控页面，查看nodes 状态如果Unhealthy Nodes列不为0，说明有的节点不健康，可以点进去查看详情，处理完并且集群处于健康状态后可尝试再次提交作业。

2022-02-25 13:36:27 2927

原创 Spark提交报错：1 node(s) are excluded in this operation

提交spark on yarn作业报错：主要错误信息“There are 1 datanode(s) running and 1 node(s) are excluded in this operation”，有一个datanode被排除1088 [main] INFO org.apache.spark.deploy.yarn.Client - Verifying our application has not requested more than the maximum memory ca

2022-02-25 10:59:39 2616

原创 IDEA本地执行Spark报错：is not a valid DFS filename

本地执行spark structured streaming 报错，程序代码：def main(args: Array[String]): Unit = { val spark = SparkSession .builder .master("local[2]") .appName("sparkStream2hudi") .getOrCreate() //消费kafka import spark.implicits._

2022-02-21 10:31:52 2289 2

原创 HDP-3.1.5.0-152环境与hudi-0.9.0兼容性问题

集群环境：HDP 3.1.5.0-152Spark 2.3.0（hudi官网要求2.4+）Hudi 0.9.0当前环境执行hudi官网测试代码报错“NoSuchFieldError: NULL_VALUE”，代码如下：def main(args: Array[String]): Unit = { val spark = SparkSession.builder .master("local[2]") .appName("hudi-test")

2022-02-18 14:58:02 951 1

原创 hdp集成apache spark提交任务时报错:bad substitution

__spark_conf__/__hadoop_conf__: bad substitution

2022-02-18 14:48:32 1606 2

原创 FlinkSQL流式关联Hbase大表方案(走二级索引)

我们在做实时数据开发的时候，通常要用spark、flink去消费kafka的数据，拿到数据流后会和外部数据库(Hbase、MySQL等)进行维表关联来把数据流打宽。当然了，有些外部数据库不只是存储维度数据，也会有很多事实数据，并且这些数据更新频繁，数据量巨大，但是我们的Flink流也会去实时的join这些巨大的事实表，这就需要选择一个合适的外部数据库作为支持，这个外部数据库一定要满足海量数据高效的读写性能，这样才能满足实时场景的需求，说到这，我们的目光自然而然的落到了Hbase上，来吧，我们直接上图，下..

2022-02-10 16:40:05 3175 1

原创 java连接phonix报错：KeeperErrorCode = NoNode for /hbase/hbaseid

我的phonix jdbc url连接参数值如下jdbc:phoenix:prod-bigdata-pc10:2181/hbase-unsecure可见我在url中已经指定了zk连接端口和hbase节点等信息，由于我是hdp环境，该环境的hbase在zk上建立的根节点为/hbase-unsecure，所以需要指定实际值，但是实际建立phonix连接时仍旧会到zk上找默认的/hbase节点，并且也发现了在url上指定zk端口也是不生效的。解决：在工程中添加hbase-site.xml文件，并通过

2022-02-09 13:02:54 2971

原创插入数据到hive hbase映射表报错RegionTooBusy

hive中使用insert select方式将某普通hive表数据写入一张hive hbase映射表,执行速度很慢，拿到其中一个container的日志发现有报错，错误如下：2022-01-18 17:18:37,730 [INFO] [htable-pool3-t1] |client.AsyncRequestFutureImpl|: id=2, table=test:LCCONT_INS, attempt=6/36, failureCount=251ops, last exception=org.a

2022-01-18 17:34:32 2261

转载 Hive on Tez : How to control the number of Mappers and Reducers

Hive on Tez : How to control the number of Mappers and ReducersGoal:How to control the number of Mappers and Reducers in Hive on Tez.Env:Hive 2.1Tez 0.8Solution:1. # of MappersWhich Tez parameters control this?tez.grouping.max-size..

2022-01-18 16:58:06 407

原创 kafka指定时间范围消费一批topic数据

public class JavaConsumerTool { /** * 创建消费者 * @return */ public static KafkaConsumer<String, String> getConsumer(){ Properties props = new Properties(); props.put("bootstrap.servers", "127.0.0.1:9092"); .

2022-01-18 16:23:03 3270

原创 NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasKerberosKeyTab(Lja

Phonix和Hbase版本用的比较高，Phonix是5.0.0-HBase-2.0版，我用JAVA JDBC查询Phonix时报错：Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasKerberosKeyTab(Ljavax/security/auth/Subject;)Z很显然时hadoop auth包版本的问题，于是将hadoop-aut

2022-01-14 13:01:51 1679

原创 Flink on Yarn 日志存储位置

有时我们的flink作业中打印太多日志（可能GB级别），在flink job web上加载就会很慢，这时我们想找到job输出的文件存放在哪个节点的目录下，并直接去查看日志文件，但是怎么找呢，来吧我们看下，我有个场景，flink作业中使用System.out.print输出了很多日志，导致在flink job web上加载就很慢，下载该日志时提示有15G，所以干脆不要下载了。我们查看下flink on yarn的作业启动输出信息，找下它的任务在哪几个节点跑，并且找到日志位置信息，我们打开它的yarn任务界面

2022-01-13 08:21:18 4212

原创 HDP环境的kafka如何开启JMX

打开HDP上的kafka配置界面，找到kafka-env template配置项，编辑添加export JMX_PORT=9393，该变量指定了JMX服务端口号，修改完成后重启kafka服务即可

2022-01-07 16:35:38 1325

原创 HDP-3.1环境kafka主题无法删除问题解决方案

问题描述：使用kafka-topics命令执行--delete操作删除topic无效，集群环境的kafka配置项delete.topic.enable=true，执行完删除操作后topic仍然存在，但是该topic分区的leader却会改变，并且zk的admin/delete_topics节点下并没有创建与该topic同名的子节点，通常执行删除操作后，kafka会在zk的admin/delete_topics节点下创建一个与删除topic同名的子节点以标记该topic已经删除。解决：在zk的admi

2022-01-07 14:55:10 1182

原创 Flink on Yarn报错：Container released on a lost node

flink任务提交到yarn执行几天后报错：2022-01-05 15:09:26,288 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator [] - Completed checkpoint 89574 for job cc0abb4a3cd870b2a9e1abc7235ceb91 (3528 bytes in 610 ms).2022-01-05 15:09:29,544 WARN akka.remote.R

2022-01-06 14:48:22 2471

原创 Flink作业使用yarn.provided.lib.dirs参数指定依赖

yarn.provided.lib.dirs参数如官网所描述，它能够在提交作业时从你指定的HDFS目录中获取依赖，从而不必在每次本地提交作业时都将依赖也一同提交，我们使用下试试，首先将工程依赖包上传至HDFS目录/user/dev/flink-1.14.0-dependency，在提交时加上yarn.provided.lib.dirs参数并指定依赖包所在HDFS目录：/opt/flink-1.14.0/bin/flink run-application \-t yarn-application \

2021-12-17 11:31:22 5133

原创 HDP-3.1.5集成DolphinScheduler-1.3.9

一、环境准备CentOS-7.8、nodejs-16、npm-(nodejs自带)、java-1.8、maven-3.8二、编译从GitHub获取dolphinscheduler-1.3.9源码git clone https://github.com/apache/dolphinscheduler.git -b 1.3.9-release进入源码目录进行编译mvn -U clean install -Prpmbuild -Dmaven.test.skip=true -X编译完

2021-11-19 10:11:08 3049 3

原创 Ranger环境下的Atlas启动异常AccessControlException: Permission denied

环境：HDP-3.1.5Ranger-1.2.0Atlas-1.1.0启动Atlas报错如下：Took 0.9533 secondsjava exceptionERROR Java::OrgApacheHadoopHbaseIpc::RemoteWithExtrasException: org.apache.hadoop.hbase.security.AccessDeniedException: org.apache.hadoop.security.AccessControlEx

2021-11-04 16:09:19 1245

原创 Ranger权限策略不生效或延迟

最近在使用Ranger配置管理Hbase权限时候，发现虽然创建了权限策略，但是不能生效，打开Ranger审计页面时，可以看到刚修改的策略虽然更新了，但是没有生效，如图：该页面可以看到有些策略状态存在警告，鼠标放在警告图标处可以看到提示“策略生效时间延迟超过1小时··” ，打开ranger服务日志可以看到错误：错误说“spnego.service.keytab”文件没有读的权限，并且发现该文件为root用户所属，于是将该文件赋予666权限，再次重启ranger服务后策略正常生效，打开Range

2021-11-04 15:45:28 2268

原创 CDH重新初始化Hive元数据库

初始化元数据需要使用cdh hive中的schematool 脚本工具进行初始化，初始化脚本位置为cloudera/parcels/CDH/lib/hive/bin/接下来执行初始化命令./schematool -initSchema -dbType mysql --verbose执行报错：[root@prod-bigdata-pc7 bin]# ./schematool -dbType mysql -initSchema -passWord root -userName root --

2021-10-21 09:53:30 2193

原创 CDH开启kerberos报错：Ticket expired

我是参考cloudera官方文档上的开启kerberos向导做的，地址：https://docs.cloudera.com/cdp-private-cloud-base/7.1.5/security-kerberos-authentication/topics/cm-security-kerberos-enabling-step4-kerberos-wizard.html开启过程中，最后的启动集群步骤开始报错，报错的服务有kafka、hbase、JobHistory等，相关日志如下：kafka、hb

2021-08-19 17:13:28 862

原创 Linkin-1.0.0提交spark任务到HDP环境报错:failed to request external resource provider

linkis-1.0.0部署到hdp集群，执行spark任务时候报错如下：找到日志linkis-cg-linkismanager.log可以看到一些错误日志，如图所示：于是开启linkis-cg-linkismanager服务的远程debug，跟踪到源码，当用linkis-cli提交spark任务时候，debug会执行到com.webank.wedatasphere.linkis.resourcemanager.external.yarn类里面的requestResourceInfo()方法，.

2021-08-19 11:22:35 512

CDH6.3.2安装包下载

由于CSDN上传文件大小限制，大家可以下载《CDH6.3.2下载.txt》获取网盘地址进行下载，我打包了CDH6.3.2 搭建所需要的各种安装文件，包括： manifest.json cloudera-manager.repo RPM-GPG-KEY-cloudera cm6.3.1-redhat7.tar.gz CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha1 CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.sha256 安装教程可参考： https://blog.csdn.net/qq_32068809/article/details/113564729?spm=1001.2014.3001.5502

2022-06-10

Flink实战项目（保险行业真实项目）

架构：flink+hbase+kafka+phoenix 项目功能：实时同步业务系统数据库数据，并做实时统计报表分析另外我提供Flink答疑服务，帮助大家快速理解项目和Flink入门，如有需要可添加微信：z1224576376，添加时请备注“flink”

2022-06-10

Flink Phoenix connector依赖包

flink sql读写phoenix所使用到的连接器依赖包： flink-sql-connector-phoenix-1.14-1.0.jar 使用示例： create table tab2( ID STRING, NAME STRING, PRIMARY KEY (ID) NOT ENFORCED )WITH( 'connector' = 'phoenix-jdbc', 'driver'='org.apache.phoenix.jdbc.PhoenixDriver', 'org.apache.flink.connector.phoenix.schema.isNamespaceMappingEnabled'='true', 'org.apache.flink.connector.phoenix.schema.mapSystemTablesToNamespace'='true', 'url' = 'jdbc:phoenix:192.168.71.00:2181/hbase', 'table-name' = 'ODS.TEST1' ) 有问题随时给我私信~

2022-06-02

Spark实战项目（保险行业真实项目）

项目功能：实时同步业务系统数据库数据，并做实时统计报表分析技术栈：Kafka+Spark+Hbase 如需项目讲解可随时私信我

2022-02-25

hue-4.10.0安装包网盘地址.txt

hue-4.10.0安装包，已编译，可直接安装

2021-08-31

azkaban-3.90.0安装包下载

Azkaban-3.90.0安装包，已编译可直接安装

2021-08-31

ambari 2.7.5 安装包下载

该资源为Ambari2.7.5预编译安装包，资源已放到百度网盘，可以先下载《ambari预编译安装包网盘下载地址.txt》获取网盘地址进行下载，资源内容：ambari-2.7.5.0-centos7.tar.gz 如有其他ambari相关资源需求可私信我

2021-07-05

CDH7.1.5离线安装包下载

CDH7及以上版本已经更名为CDP 本资源打包了CDH7.1.5 搭建所需要的各种安装文件，包括： cm7.2.4-redhat7.tar.gz manifest.json cloudera-manager.repo RPM-GPG-KEY-cloudera CDH-7.1.5-1.cdh7.1.5.p0.7431829-el7.parcel CDH-7.1.5-1.cdh7.1.5.p0.7431829-el7.parcel.sha1 CDH-7.1.5-1.cdh7.1.5.p0.7431829-el7.parcel.sha256 安装教程可参考我的博客： https://blog.csdn.net/qq_32068809/article/details/113564729?spm=1001.2014.3001.5502 注意，CDP7不提供免费版（可以试用），如果没有购买CDP授权请谨慎下载本资源，CDH免费版本最高支持到6.3.2，大家可以前往这个链接下载：https://download.csdn.net/download/qq_32068809/15865504 任何问题可添加微信咨询：15854186970

2021-03-22

TA关注的人

CDH6.3.2安装包下载

Flink实战项目（保险行业真实项目）

Flink Phoenix connector依赖包

Spark实战项目（保险行业真实项目）

hue-4.10.0安装包网盘地址.txt

azkaban-3.90.0安装包下载

ambari 2.7.5 安装包下载

CDH7.1.5离线安装包下载

Flink实战项目（电力行业真实项目）

CDH6.3.3安装bao下载

logstash-input-jdbc-4.3.19

logstash-input-kafka-9.1.0.gem

VNC-Viewer-6.20.529-Windows.exe

如何在StructuredStreaming中使用groupBy、groupByKey等算子时降低Task数量（调优）

Yarn的ResourceManager给某个NodeManager发送Shutdown信号的原因有哪些

windows下用thrift预构建编译器生成的java代码有语法错误