蹩脚法师-CSDN博客

原创 Spark读取HDFS加密区数据乱码问题解决

因为项目需求，需要启用hdfs加密区，为了验证对现有程序的影响，我在自己的集群上配置了加密区，并测试spark和java程序读取数据。spark程序代码如下 System.setProperty("HADOOP_USER_NAME", "user1") val spark = SparkSession .builder() .master("local") .getOrCreate() // val data = spark.read.

2021-07-16 15:04:52 488

原创 HUE+LDAP+HIVE，报错:PLAIN auth failed: Error validating LDAP user

我已经为hue集成了ldap，本次为hive集成ldap认证之后，登录hue后，在hive editor中执行sql语句报如下错误：Bad status: 3 (PLAIN auth failed: Error validating LDAP user) (code THRIFTTRANSPORT): TTransportException('Bad status: 3 (PLAIN ...

2019-09-04 17:12:36 7026

原创 mariadb在有无索引下插入和查询速度对比

众所周知，mariadb是mysql的一个分支，使用起来和mysql差别不大。我最近看了看《高性能MySQL》，虽然明白了一些索引的原理，但对于索引实际能提升的效率还是缺乏直观的认识，所以想要测试一下索引对插入和查询的时间的影响。之所以使用mariadb而不是mysql，一是因为两者相差不大，二是yum库中没有mysql。测试环境：虚拟机系统：centos，cpu：1核，内存：2g，mar...

2018-09-14 14:47:56 1020

原创 spark如何写自定义聚合函数UDAF

spark自定义聚合函数需要继承一个抽象类UserDefinedAggregateFunction，并重写以下属性和方法1. inputSchema：函数的参数列表，不过需要写成StructType的格式，例如：override def inputSchema:StructType = StructType(Array(StructField("age",IntegerType)))...

2018-09-09 16:22:52 2897

原创 quartz在用mysql做持久化有时候会错过调度的问题

之前做的一个用quartz调度周期任务的系统，我在测试的时候偶然发现quartz有时会错过第一次触发（当时我设置的是每分钟执行一次，开始时间在添加进quartz的时间之前），我找了很多博客论坛，也在百度和Stack Overflow搜索，但都没有找到有这样问题。只能一点点调试，找问题出在哪里。最后终于窥见了一些端倪，总结如下：一，出现的问题的详细描述1.首先我设置的调度策略是with...

2018-08-25 20:49:24 565

原创 spark读取hdfs的权限异常

hdfs本身是没有身份认证的，但是为了防止用户误操作，它也有类似linux的文件权限限制我在IDE里开发程序连接hdfs因为本机名和服务器的文件所属用户名不同导致没有读取权限，错误异常堆栈如下：这样有两种解决方法，一是更改文件权限或所属用户，二是更改本地用户名。我用的是第二种：可以在程序中定义sparksession之前。加入这么一段代码System.setProper...

2018-08-20 11:28:06 3514

原创 spark运行时加载hive，hdfs配置文件

以前我用spark连接hive都是把hive的配置文件放在spark的conf目录，后来有个项目在运行时才能确定要连接哪个hive源，我就找了个能在运行时加载配置文件的方法，代码如下：import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.Pathimport org.apache.spark.s...

2018-08-13 20:22:34 3038

原创 spark读取elasticsearch中数组类型的字段

之前做的一个项目需要用sparksql读取elasticsearch的数据，当读取的类型中包含数组时报错.读取方式大概是val options = Map("pushdown" -> "true", "strict" -> "false", "es.nodes" -> "127.0.0.1", "es.port

2018-08-04 10:04:16 3028

原创提交spark程序到yarn出现ERROR SparkContext: Error initializing SparkContext.

命令行输出的java异常栈ERROR SparkContext: Error initializing SparkContext.org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master. ...

2018-02-26 14:15:26 18074 2

piduzi的博客