小小小黄鸡-CSDN博客

原创 Spark 任务常见错误以及解决方案

Table or view not found: aaa.bbbThe column number of the existing table dmall_search.query_embedding_data_1(struct<>) doesn’t match the data schema(struct<user_id:string,dt:string,sku_list:array>);Cannot insert into table ddw_ware.purchase_d.

2020-09-23 17:50:55 14694

原创 Spark 当中map，flatMap，mapPartitions的区别以及示例

这几天学习看了map以及flatMap还有mapPartitions，然后写一篇博文记录一哈，以免自己忘了，如果有写错的地方，一定要不留情面的指出来！Spark 当中map，flatMap，mapPartitionsmap：对集合中每个元素进行操作。flatMap：对集合中每个元素进行操作然后再扁平化(打平)。mapPartitions：与map类似，函数会对每个分区中的一组数据进行相应的...

2020-01-13 17:56:52 1611

原创 yarn 问题总结（目前遇到的问题）

以下为使用yarn过程中遇到的问题，会持续更新，也当做是个个人笔记吧，好记性不如烂笔头。一、部分nodemanager节点状态变为unhealthy现象：首先会在ambari界面看到有两台机器上的nodemanager被标志位unhealthy （图中已经被修复，所以没有显示出有unhealthy的。），也可以去yarn的界面有个左边有个nodes选项，也可以查看nodemanager...

2019-01-31 17:17:09 6308 5

原创使用IDEA 搭建 spark on yarn 的开发环境+调试~

1.导入yarn和hdfs配置文件因为spark on yarn 是依赖于yarn和hdfs的，所以获取yarn和hdfs配置文件是首要条件，将core-site.xml、hdfs-site.xml 、yarn-site.xml 这三个文本考入到你IDEA项目里面的resource目录下，如下图所示：...

2018-05-25 16:12:35 9609 22

原创 ClouderaManager java api 有关查询api 使用。

首先pom中加上此依赖： <dependency> <groupId>com.cloudera.api</groupId> <artifactId>cloudera-manager-api</artifactId> <version>5.14.2</version&

2018-05-21 14:42:20 4178 8

原创 Opentsdb插入数据导致RegionServer写入请求分布不均匀（二）：Opentsdb 预切分Hbase中 tsdb表

Opentsdb 预切分Hbase中 tsdb表，预分区，预创建UID

2017-09-14 10:49:56 2136

原创 Opentsdb插入数据导致RegionServer写入请求分布不均匀

Opentsdb插入数据导致RegionServer写入请求分布不均匀

2017-04-28 16:23:18 2124 3

原创 PySpark 优雅的解决依赖包管理

平台所有的Spark任务都是采用Spark on yarn cluster的模式进行任务提交的，driver和executor随机分配在集群的各个节点，pySpark 由于python语言的性质，所以pySpark项目的依赖注定不能像java/scala项目那样把依赖打进jar包中轻松解决问题。所以本文主要目标就是解决pySpark在分布式的情况下，如何优雅的解决项目中的依赖问题，目前总结出如下三种办法供大家使用。

2023-11-06 01:03:55 735

原创二、用IDEA导入spark源码，并在本地运行standlone

上面我们编译了源码，然后我们接下来用idea将源码导入到开发工具，并在idea上启动standlone的master和slave，方便我们调试。1将项目导入到idea当中然后open as project即可。我看网上很多说，导入了，然后让maven自动导入依赖就行，但是不知道可能是我的网络问题，我遇到了很多问题，这里我分享出来，看是否能对你们有帮助。2遇到的问题1.导入到idea当中，s...

2020-04-26 00:39:03 1330

原创一、Spark 2.4.0 源码编译

1.环境准备JAVAjava的话，直接安装个1.8就行了，配置好环境变量和JAVA_HOME，在cmd当中java一下，确认java安装好即可。scalascala安装和java类似，把Scala安装包解压，然后配置好Windows环境变量中的path当中还有SCALA_HOME，这里根据你想要阅读的源码，选择合适的scala版本，我用的是scala 2.11版本，然后scala ...

2020-04-21 18:36:09 595

原创在HDP安装的yarn基础上，自定义安装个spark on yarn

一、概述通常用HDP+AMBARI安装的spark on yarn 模式可以正常使用，但是缺点是spark版本是HDP包中固定好的，极其不灵活，目标就是使用HDP+AMBARI安装的yarn ，然后spark自己部署，保证自己安装的spark可以运行在ambari部署的yarn上面。二、部署步骤1.进入/usr/hdp/2.5.3.0-37/hadoop-yarn/lib（hdp安装目...

2020-03-20 18:06:37 1063

原创 org.apache.spark.network.protocol.MessageWithHeader.touch(Ljava/lang/Object;)Lio/netty/util/Referenc

我使用IDEA进行spark sql调试的时候突然出现了这个问题，堆栈信息如下：java.lang.AbstractMethodError: org.apache.spark.network.protocol.MessageWithHeader.touch(Ljava/lang/Object;)Lio/netty/util/ReferenceCounted; at io.netty.util.R...

2018-09-28 18:11:25 2924

原创 java.lang.NoClassDefFoundError: Could not initialize class scala.tools.fusesource_embedded.jansi.int

我自己在windows下编译了一遍spark，成功了，全部都success了，美滋滋，然后我想在windows下启动下spark-shell：结果，嗯？出错了？To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).[ERROR] Terminal init...

2018-05-29 15:12:17 4092

原创 spark 2 查看历史job任务日志

1。编辑spark-env.shexport HADOOP_HOME=/usr/hdp/current/hadoop-client export HADOOP_CONF_DIR=/usr/hdp/current/hadoop-client/conf 这两个其实就是为了获得hadoop中的hdfs和yarn的配置文件。2。编辑spark-defaults.confspark.hi...

2018-05-28 14:14:00 3166

原创 java.io.IOException: No FileSystem for scheme: hdfs

在用Scala写spark时候，用了sc操作了hdfs，出现了如下错误：java.io.IOException: No FileSystem for scheme: hdfs at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660) at org.apache.hadoop.fs....

2018-05-25 13:52:59 2535 1

原创 windows下搭建hadoop/spark环境常见问题

1。Could not locate executable null\bin\winutils.exe in the Hadoop binaries.解决方法：下载个hadoop2.6-common-bin.zip，然后解压添加环境变量： HADOOP_HOME=D:\hadoop-win\hadoop-common-2.6.0-bin PATH里面添加这个：%HADOOP_HOM...

2018-04-04 16:57:10 1034

原创 Error: Duplicate key name 'PCS_STATS_IDX' (state=42000,code=1061) ----Hive schematool -initSchema

当我们输入./schematool -initSchema -dbType mysql的时候，会出现以下错误Metastore connection URL: jdbc:mysql://192.168.*./hive?createDatabaseIfNotExist=true Metastore Connection Driver : com.mysql.jdbc.Driver Metas

2018-02-07 11:53:25 15638 3

原创 hive: metastore 无法启动（本地模式 Mysql）

hive: metastore 无法启动

2018-02-07 11:46:41 2085 1

原创 hive ：Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

hive ：Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

2018-02-07 11:14:17 1737

原创集群间动态扩展和删除hdfs的datanode和hbase的regionserver

集群间动态扩展和删除hdfs的datanode和hbase的regionserver

2018-01-18 18:25:00 1179 3

原创 KafkaOffsetMonitor

KafkaOffsetMonitor

2017-12-28 16:14:47 800 2

原创 OPENTSDB: Request failed: Internal Server Error net.opentsdb.core.IllegalDataException

Request failed: Internal Server Error net.opentsdb.core.IllegalDataException:Duplicate timestamp for key=[68, -110, -13, 90, 60, -97, 96, 0, 0, 1, 0, 0, 1, 0, 0, 2, 0, 0, 95, 0, 0, 3, 0, 0, 4], ms_offset=135600

2017-12-26 10:11:34 1916 1

原创已经删除了datanode所有数据，但是Hbase创建表格时，仍Hbase Table already exists的处理方法~！

已经删除了datanode所有数据，但是Hbase创建表格时，仍Hbase Table already exists的处理方法~！

2017-12-22 13:51:14 540

原创 Opentsdb http 写入常见问题

1.存入的Opentsdb的时间戳，一定不能为0metric=CID_1 ts=0 value=0.0 sn= 946168002784 carid=038588c0770840d0bf469b6149dbdce1如果上方那个时间戳为0的话，存入Opentsdb会返回状态码400，提示你错误。2. Invalid tag value (” 946168002784”): illegal charac

2017-12-06 18:12:58 3141

原创 HA模式下，扩展HDFS集群遇到的问题，namenode 启动不起来！emmmmmmmm~

HA模式下，扩展HDFS集群遇到的问题，namenode 启动不起来！Journal Storage Directory /hadoop/journaldata/cluster not formattedOperation category JOURNAL is not supported in state standby

2017-09-06 16:00:45 2297

原创 Opentsdb 2.3 Writing data（二）

Opentsdb 2.3 Writing data（二）

2017-09-05 16:13:02 1035 1

原创使用tcollector及使用过程中遇到的错误

Hbase监控，Opentsdb，tcollector

2017-08-14 14:59:56 1383

原创 Opentsdb 2.3 Writing data（一）

写数据你也许迫不及待的想将数据放入到TSDB当中，但是为了能够充分发挥OpenTSDB的性能和灵活性，你可能需要暂时停一下并且认真的思考一下你得命名规则。当你已经深思熟虑的思考过你得命名规则之后，你可以通过Telnet或者HTTP API来插入你的数据，或者使用扩展的第三方工具来使用OpenTSDB，例如’tcollector’。命名规则许多点位设计者经常使用一些单一的名字来定义他

2017-07-16 16:30:09 1270 2

转载 OpenTSDB TCollector 详解

tcollector是一个客户端程序，用来收集本机的数据，并将数据发送到OpenTSDB。OpenTSDB被设计的收集和写入数据非常简单，有一个简单的协议，即使是一个shell脚本也可以用来发送数据。但是，做到可靠和一致性就有些困难了。当TSD服务器down了该怎么做？如何确保采集者一直在运行？这就是要使用tcollector的原因了。tcollector可以为你做一下几件事：

2017-06-16 11:45:27 1334

原创 Hive：安装Hive遇到的一些问题（Remote Server Mode模式）

Hive安装遇到的一些坑,com.mysql.cj.core.exceptions.CJCommunicationsException: Communications link failureRelative path in absolute URI: ${system:java.io.tmpdir%7D/$%7Bhive.sessionNestedThrowablesStackTrace: Could not create "increment"/"table" value-generatio

2016-12-19 16:11:20 1399 2

qq_31806205的博客