自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark读取HDFS加密区数据乱码问题解决

因为项目需求,需要启用hdfs加密区,为了验证对现有程序的影响,我在自己的集群上配置了加密区,并测试spark和java程序读取数据。spark程序代码如下 System.setProperty("HADOOP_USER_NAME", "user1") val spark = SparkSession .builder() .master("local") .getOrCreate() // val data = spark.read.

2021-07-16 15:04:52 488

原创 HUE+LDAP+HIVE,报错:PLAIN auth failed: Error validating LDAP user

我已经为hue集成了ldap,本次为hive集成ldap认证之后,登录hue后,在hive editor中执行sql语句报如下错误:Bad status: 3 (PLAIN auth failed: Error validating LDAP user) (code THRIFTTRANSPORT): TTransportException('Bad status: 3 (PLAIN ...

2019-09-04 17:12:36 7026

原创 mariadb在有无索引下插入和查询速度对比

众所周知,mariadb是mysql的一个分支,使用起来和mysql差别不大。我最近看了看《高性能MySQL》,虽然明白了一些索引的原理,但对于索引实际能提升的效率还是缺乏直观的认识,所以想要测试一下索引对插入和查询的时间的影响。之所以使用mariadb而不是mysql,一是因为两者相差不大,二是yum库中没有mysql。测试环境:虚拟机系统:centos,cpu:1核,内存:2g,mar...

2018-09-14 14:47:56 1020

原创 spark如何写自定义聚合函数UDAF

spark自定义聚合函数需要继承一个抽象类UserDefinedAggregateFunction,并重写以下属性和方法1. inputSchema:函数的参数列表,不过需要写成StructType的格式,例如:override def inputSchema:StructType = StructType(Array(StructField("age",IntegerType)))...

2018-09-09 16:22:52 2897

原创 quartz在用mysql做持久化有时候会错过调度的问题

之前做的一个用quartz调度周期任务的系统,我在测试的时候偶然发现quartz有时会错过第一次触发(当时我设置的是每分钟执行一次,开始时间在添加进quartz的时间之前),我找了很多博客论坛,也在百度和Stack Overflow搜索,但都没有找到有这样问题。只能一点点调试,找问题出在哪里。最后终于窥见了一些端倪,总结如下: 一,出现的问题的详细描述1.首先我设置的调度策略是with...

2018-08-25 20:49:24 565

原创 spark读取hdfs的权限异常

hdfs本身是没有身份认证的,但是为了防止用户误操作,它也有类似linux的文件权限限制我在IDE里开发程序连接hdfs因为本机名和服务器的文件所属用户名不同导致没有读取权限,错误异常堆栈如下: 这样有两种解决方法,一是更改文件权限或所属用户,二是更改本地用户名。我用的是第二种:可以在程序中定义sparksession之前。加入这么一段代码System.setProper...

2018-08-20 11:28:06 3514

原创 spark运行时加载hive,hdfs配置文件

 以前我用spark连接hive都是把hive的配置文件放在spark的conf目录,后来有个项目在运行时才能确定要连接哪个hive源,我就找了个能在运行时加载配置文件的方法,代码如下:import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.Pathimport org.apache.spark.s...

2018-08-13 20:22:34 3038

原创 spark读取elasticsearch中数组类型的字段

 之前做的一个项目需要用sparksql读取elasticsearch的数据,当读取的类型中包含数组时报错.读取方式大概是val options = Map("pushdown" -> "true", "strict" -> "false", "es.nodes" -> "127.0.0.1", "es.port

2018-08-04 10:04:16 3028

原创 提交spark程序到yarn出现ERROR SparkContext: Error initializing SparkContext.

命令行输出的java异常栈ERROR SparkContext: Error initializing SparkContext.org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master. ...

2018-02-26 14:15:26 18074 2

darpa1999第二周星期三内网数据

darpa1999数据集的部分数据,可用于测试网络安全程序效果

2018-01-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除