自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark 任务常见错误以及解决方案

Table or view not found: aaa.bbbThe column number of the existing table dmall_search.query_embedding_data_1(struct<>) doesn’t match the data schema(struct<user_id:string,dt:string,sku_list:array>);Cannot insert into table ddw_ware.purchase_d.

2020-09-23 17:50:55 14694

原创 Spark 当中map,flatMap,mapPartitions的区别以及示例

这几天学习看了map以及flatMap还有mapPartitions,然后写一篇博文记录一哈,以免自己忘了,如果有写错的地方,一定要不留情面的指出来!Spark 当中map,flatMap,mapPartitionsmap:对集合中每个元素进行操作。flatMap:对集合中每个元素进行操作然后再扁平化(打平)。mapPartitions:与map类似,函数会对每个分区中的一组数据进行相应的...

2020-01-13 17:56:52 1611

原创 yarn 问题总结 (目前遇到的问题)

以下为使用yarn过程中遇到的问题,会持续更新,也当做是个个人笔记吧,好记性不如烂笔头。一、部分nodemanager节点状态变为unhealthy现象:首先会在ambari界面看到有两台机器上的nodemanager被标志位unhealthy (图中已经被修复,所以没有显示出有unhealthy的。),也可以去yarn的界面有个左边有个nodes选项,也可以查看nodemanager...

2019-01-31 17:17:09 6308 5

原创 使用IDEA 搭建 spark on yarn 的开发环境+调试~

1.导入yarn和hdfs配置文件因为spark on yarn 是依赖于yarn和hdfs的,所以获取yarn和hdfs配置文件是首要条件,将core-site.xml、hdfs-site.xml 、yarn-site.xml 这三个文本考入到你IDEA项目里面的resource目录下,如下图所示:...

2018-05-25 16:12:35 9609 22

原创 ClouderaManager java api 有关查询api 使用。

首先pom中加上此依赖: &lt;dependency&gt; &lt;groupId&gt;com.cloudera.api&lt;/groupId&gt; &lt;artifactId&gt;cloudera-manager-api&lt;/artifactId&gt; &lt;version&gt;5.14.2&lt;/version&

2018-05-21 14:42:20 4178 8

原创 Opentsdb插入数据导致RegionServer写入请求分布不均匀(二):Opentsdb 预切分Hbase中 tsdb表

Opentsdb 预切分Hbase中 tsdb表,预分区,预创建UID

2017-09-14 10:49:56 2136

原创 Opentsdb插入数据导致RegionServer写入请求分布不均匀

Opentsdb插入数据导致RegionServer写入请求分布不均匀

2017-04-28 16:23:18 2124 3

原创 PySpark 优雅的解决依赖包管理

平台所有的Spark任务都是采用Spark on yarn cluster的模式进行任务提交的,driver和executor随机分配在集群的各个节点,pySpark 由于python语言的性质,所以pySpark项目的依赖注定不能像java/scala项目那样把依赖打进jar包中轻松解决问题。所以本文主要目标就是解决pySpark在分布式的情况下,如何优雅的解决项目中的依赖问题,目前总结出如下三种办法供大家使用。

2023-11-06 01:03:55 735

原创 二、用IDEA导入spark源码,并在本地运行standlone

上面我们编译了源码,然后我们接下来用idea将源码导入到开发工具,并在idea上启动standlone的master和slave,方便我们调试。1将项目导入到idea当中然后open as project即可。我看网上很多说,导入了,然后让maven自动导入依赖就行,但是不知道可能是我的网络问题,我遇到了很多问题,这里我分享出来,看是否能对你们有帮助。2遇到的问题1.导入到idea当中,s...

2020-04-26 00:39:03 1330

原创 一、Spark 2.4.0 源码编译

1.环境准备JAVAjava的话,直接安装个1.8就行了,配置好环境变量和JAVA_HOME,在cmd当中java一下,确认java安装好即可。scalascala安装和java类似,把Scala安装包解压,然后配置好Windows环境变量中的path当中还有SCALA_HOME,这里根据你想要阅读的源码,选择合适的scala版本,我用的是scala 2.11版本,然后scala ...

2020-04-21 18:36:09 595

原创 在HDP安装的yarn基础上,自定义安装个spark on yarn

一、概述通常用HDP+AMBARI安装的spark on yarn 模式可以正常使用,但是缺点是spark版本是HDP包中固定好的,极其不灵活,目标就是使用HDP+AMBARI安装的yarn , 然后spark自己部署,保证自己安装的spark可以运行在ambari部署的yarn上面。二、 部署步骤1.进入/usr/hdp/2.5.3.0-37/hadoop-yarn/lib(hdp安装目...

2020-03-20 18:06:37 1063

原创 org.apache.spark.network.protocol.MessageWithHeader.touch(Ljava/lang/Object;)Lio/netty/util/Referenc

我使用IDEA进行spark sql调试的时候突然出现了这个问题,堆栈信息如下:java.lang.AbstractMethodError: org.apache.spark.network.protocol.MessageWithHeader.touch(Ljava/lang/Object;)Lio/netty/util/ReferenceCounted; at io.netty.util.R...

2018-09-28 18:11:25 2924

原创 java.lang.NoClassDefFoundError: Could not initialize class scala.tools.fusesource_embedded.jansi.int

我自己在windows下编译了一遍spark,成功了,全部都success了,美滋滋,然后我想在windows下启动下spark-shell: 结果,嗯?出错了?To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).[ERROR] Terminal init...

2018-05-29 15:12:17 4092

原创 spark 2 查看历史job任务日志

1。编辑spark-env.shexport HADOOP_HOME=/usr/hdp/current/hadoop-client export HADOOP_CONF_DIR=/usr/hdp/current/hadoop-client/conf 这两个其实就是为了获得hadoop中的hdfs和yarn的配置文件。2。编辑spark-defaults.confspark.hi...

2018-05-28 14:14:00 3166

原创 java.io.IOException: No FileSystem for scheme: hdfs

在用Scala写spark时候,用了sc操作了hdfs,出现了如下错误:java.io.IOException: No FileSystem for scheme: hdfs at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660) at org.apache.hadoop.fs....

2018-05-25 13:52:59 2535 1

原创 windows下搭建hadoop/spark环境常见问题

1。Could not locate executable null\bin\winutils.exe in the Hadoop binaries.解决方法: 下载个hadoop2.6-common-bin.zip,然后解压 添加环境变量: HADOOP_HOME=D:\hadoop-win\hadoop-common-2.6.0-bin PATH里面添加这个:%HADOOP_HOM...

2018-04-04 16:57:10 1034

原创 Error: Duplicate key name 'PCS_STATS_IDX' (state=42000,code=1061) ----Hive schematool -initSchema

当我们输入./schematool -initSchema -dbType mysql的时候,会出现以下错误Metastore connection URL: jdbc:mysql://192.168.*./hive?createDatabaseIfNotExist=true Metastore Connection Driver : com.mysql.jdbc.Driver Metas

2018-02-07 11:53:25 15638 3

原创 hive: metastore 无法启动(本地模式 Mysql)

hive: metastore 无法启动

2018-02-07 11:46:41 2085 1

原创 hive :Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

hive :Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

2018-02-07 11:14:17 1737

原创 集群间动态扩展和删除hdfs的datanode和hbase的regionserver

集群间动态扩展和删除hdfs的datanode和hbase的regionserver

2018-01-18 18:25:00 1179 3

原创 KafkaOffsetMonitor

KafkaOffsetMonitor

2017-12-28 16:14:47 800 2

原创 OPENTSDB: Request failed: Internal Server Error net.opentsdb.core.IllegalDataException

Request failed: Internal Server Error net.opentsdb.core.IllegalDataException:Duplicate timestamp for key=[68, -110, -13, 90, 60, -97, 96, 0, 0, 1, 0, 0, 1, 0, 0, 2, 0, 0, 95, 0, 0, 3, 0, 0, 4], ms_offset=135600

2017-12-26 10:11:34 1916 1

原创 已经删除了datanode所有数据,但是Hbase创建表格时,仍Hbase Table already exists的处理方法~!

已经删除了datanode所有数据,但是Hbase创建表格时,仍Hbase Table already exists的处理方法~!

2017-12-22 13:51:14 540

原创 Opentsdb http 写入常见问题

1.存入的Opentsdb的时间戳,一定不能为0metric=CID_1 ts=0 value=0.0 sn= 946168002784 carid=038588c0770840d0bf469b6149dbdce1如果上方那个时间戳为0的话,存入Opentsdb会返回状态码400,提示你错误。2. Invalid tag value (” 946168002784”): illegal charac

2017-12-06 18:12:58 3141

原创 HA模式下,扩展HDFS集群遇到的问题,namenode 启动不起来!emmmmmmmm~

HA模式下,扩展HDFS集群遇到的问题,namenode 启动不起来!Journal Storage Directory /hadoop/journaldata/cluster not formattedOperation category JOURNAL is not supported in state standby

2017-09-06 16:00:45 2297

原创 Opentsdb 2.3 Writing data(二)

Opentsdb 2.3 Writing data(二)

2017-09-05 16:13:02 1035 1

原创 使用tcollector及使用过程中遇到的错误

Hbase监控,Opentsdb,tcollector

2017-08-14 14:59:56 1383

原创 Opentsdb 2.3 Writing data(一)

写数据你也许迫不及待的想将数据放入到TSDB当中,但是为了能够充分发挥OpenTSDB的性能和灵活性,你可能需要暂时停一下并且认真的思考一下你得命名规则。当你已经深思熟虑的思考过你得命名规则之后,你可以通过Telnet或者HTTP API来插入你的数据,或者使用扩展的第三方工具来使用OpenTSDB,例如’tcollector’。命名规则许多点位设计者经常使用一些单一的名字来定义他

2017-07-16 16:30:09 1270 2

转载 OpenTSDB TCollector 详解

tcollector是一个客户端程序,用来收集本机的数据,并将数据发送到OpenTSDB。OpenTSDB被设计的收集和写入数据非常简单,有一个简单的协议,即使是一个shell脚本也可以用来发送数据。但是,做到可靠和一致性就有些困难了。当TSD服务器down了该怎么做?如何确保采集者一直在运行?这就是要使用tcollector的原因了。tcollector可以为你做一下几件事:

2017-06-16 11:45:27 1334

原创 Hive:安装Hive遇到的一些问题 (Remote Server Mode模式)

Hive安装遇到的一些坑,com.mysql.cj.core.exceptions.CJCommunicationsException: Communications link failureRelative path in absolute URI: ${system:java.io.tmpdir%7D/$%7Bhive.sessionNestedThrowablesStackTrace: Could not create "increment"/"table" value-generatio

2016-12-19 16:11:20 1399 2

kafka monitor

kafka monitor 0.3.0 可以之家下载启动,详细看我博客

2017-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除