自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(70)
  • 资源 (27)
  • 收藏
  • 关注

原创 object XXX is not a member of package

object is not a member of package

2023-11-13 15:03:48 264

原创 如何创建crontab定时任务

如何创建crontab定时任务

2022-09-05 10:40:10 2917 1

原创 spark history server 本地路径

本地启spark history server,spark.history.fs.logDirectory除了可以设置为hdfs远程目录外,还可以设置为本地路径,如:./start-history-server.sh file:///home/te/maruilei/scripts/logs/tmp_log/

2021-06-09 14:38:51 746

原创 Spark启动HistoryServer

1.spark-defaults.conf中添加配置,开启eventLog并指定存放路径:spark.eventLog.enabled=truespark.eventLog.compress=truespark.eventLog.dir=hdfs://XXX:9000/spark_eventlog/2. $SPARK_HOME/sbin下,执行 ./start-history-server.sh 启动history-server:需要注意的是,start-history-server..

2021-02-02 21:32:03 2108

转载 京东Spark自研Remote Shuffle Service在大促中的应用实践

前言本文讨论了京东Spark计算引擎研发团队关于自主研发并落地Remote Shuffle Service,助力京东大促场景的探索和实践。近年来,大数据技术在各行各业的应用越来越广泛,Spark自UCBerkeley的AMP实验室诞生到如今3.0版本的发布,已有十年之久,俨然已经成为大数据计算领域名副其实的老将。虽经过不断的迭代和优化,Spark功能日趋成熟与完善,但在性能及稳定性方面,仍然还有很多可以提升的地方。Shuffle过程作为MapReduce编程模型的性能瓶颈,就是其中重点之一。我们希.

2021-01-19 20:42:21 1431

原创 IDEA中Spark源码接口或方法少实现类

1. 现象:举例说明如:SparkApplication # start方法,被多个类重写,但有时候点左侧overrides看实现状况时,可能会缺少某几个类的实现调用;2. 原因:比如缺少yarn或kubernetes具体类的实现,原因一般是因为Spark项目中module的引用出了问题;我的问题是因为总切换2.4和3.0版本,modules中各个模块同时引入了2.11和2.12版本,module引用冲突导致的;3. 解决办法:File -> Project..

2020-12-16 10:48:32 195 2

原创 spark打包命令

./dev/make-distribution.sh --name hadoop2.7.1 --tgz -Phadoop-2.7 -Psparkr -Phive -Phive-1.2 -Phive-thriftserver -Pyarn -Pkubernetes -DskipTests -Dmaven.test.skip=true

2020-11-24 17:02:30 232

原创 spark触发adaptive skewed join的例子code

1. 启动spark-shell,参数如下:spark-shell --conf spark.driver.allowMultipleContexts=true --conf spark.sql.adaptive.maxNumPostShufflePartitions=5 --conf spark.shuffle.statistics.verbose=true --conf spark.sql.adaptive.enabled=true --conf spark.sql.autoBroadcastJo

2020-11-18 23:34:29 386

原创 Spark Shuffle 例子

sc.parallelize(0 to 0xff, 100).map(i => (i ^ 2, i << 2, i & 2, i | 2)).repartition(100).count()

2020-11-09 14:41:09 200

原创 this file is idented with 4 spaces instead of 2

Idea 调整不同类型文件的缩进大小:Preference-> Editor -> Code Style -> Java / Scala-> Tabs / Indents -> Other -> Ok

2020-10-12 14:12:42 217 1

原创 Error: Could not find or load main class XXX 或 Main class cannot resolve XXX

非maven项目,简简单单的Scala Object main函数调方法,想run或debug起来,结果idea报错Error: Could not find or load main class XXX不是啥sdk或 *..iml的问题,需要确认的是,是否将要调试的class类所在的根目录设置为sources root具体:参考:https://stackoverflow.com/questions/21884217/cant-choose-class-as-main-class-i.

2020-10-09 15:28:13 1086

原创 Java中String转Int

两种办法:1. 用Integer的parseInt(): 1 2 3 4 5 6 Stringstr="123"; try{ inta=Integer.parseInt(str); }catch(NumberFormatExceptione){ e.printStackTrace(); } 2.用Integer的valueOf():...

2020-08-14 11:05:51 426

原创 Spark On K8s Executor失败不删除(方便调试)

--conf spark.kubernetes.executor.deleteOnTermination=false

2020-08-10 17:09:27 491

原创 Spark编码格式校验,引包顺序

import顺序,空行以及格式:java.*scala.*第三方包按字母序如com.*org.*org.apache.spark.*

2020-07-28 11:32:51 211

原创 如何使用火焰图对Spark的executor的CPU使用率进行profile?具体步骤,如何操作?

需要对executor CPU进行profile,看调用栈,有没有函数性能瓶颈,想用火焰图。1. 登录executor所在NM节点;2. 通过ps -ef | grep appId/executor 结合 jps 找到相应executor进程,找到进程pid;3. 通过以下脚本,获取(定时抓取)供profile用的jstack和top等文件:#!/bin/bashif [ $# -eq 0 ]; then echo >&2 "Usage: jstackSeries

2020-07-23 21:40:27 872

原创 spark-sql显示表头header

spark-sql --hiveconf hive.cli.print.header=true

2020-05-25 18:40:52 4020 1

原创 hive server 2 服务端及beeline client客户端 远程debug方式

hive server 2 服务端代码远程debug调试方式:1. idea 添加debug 远程调试,如下:2.将idea 远程debug参数添加到vi hadoop_conf/hadoop-env.sh 中HADOOP_CLIENT_OPTS 配置项中,如:export HADOOP_CLIENT_OPTS="-Xmx5g -agentlib:jdwp=tran...

2020-04-24 10:43:59 2267 2

原创 常用docker知识【持续更新】

1. 基于Dockerfile制作一个镜像:docker build -t docker tag docker push 2. 基于某个镜像启动一个pod:docker run -i -t repo.XX.local/centos/centos-jdk:7.5-XX

2020-04-17 10:59:49 111

原创 scaladiagrams看scala类图依赖关系

1. clone并buildscaladiagrams:git clone https://github.com/mikeyhu/scaladiagrams.gitcd scaladiagrams./build注意: build过程可能遇到本地sbt问题,详见:https://blog.csdn.net/merrily01/article/details/1053913982...

2020-04-08 17:16:15 855 2

原创 Error wrapping InputStream in GZIPInputStream: java.io.EOFException

问题:本地编译scaladiagrams,报错如下,看日志应该是本地sbt环境问题:Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0[info] Loading global plugins from /Users/XXXX/.s...

2020-04-08 16:50:20 812

原创 Spark本地跑UT的方法

1. 跑具体某个UT✗ ./build/mvn test -Dtest=moo -DwildcardSuites=org.apache.spark.metrics.sink.JtsdbSinkSuite2. 跑某个模块下所有UT,如:mvn clean package -Pyarn -Phadoop-2.7 -Pkubernetes -Dhadoop.ver...

2020-04-02 18:40:30 693

原创 spark.test.home is not set!

Spark idea本地跑unit test,报错spark.test.home is not set! 怎么办?举例报错详细如下:spark.test.home is not set!ScalaTestFailureLocation: org.apache.spark.deploy.SparkSubmitSuite$$anonfun$58 at (SparkSubmitSuite....

2020-03-03 11:31:38 1011

原创 git rebase 远程分支,落后的commits

1. 将目标远程分支checkout到本地;如:git remote add Upstream https://github.com/apache/spark.gitgit remote update Upstreamgit checkout -t Upstream/branch-2.4.52. 切换到自己的开发分支,将mr相关commits rebase 合并为一...

2020-03-02 12:24:01 6188

原创 Spark单元测试getClass.getClassLoader.getResource读resource路径下的配置文件,总报NullPointerException

IDEA 跑Spark单元测试,需要读取resource路径下测试用的配置文件,用getClass.getClassLoader.getResource("XXXX")总报NullPointerException空指针异常,找不到配置文件。解决办法:删掉根路径下的.idea文件夹,打开项目重新生成一个...

2020-02-20 10:43:00 855

原创 spark on k8s: master pod kube-proxy-mkbp7 Evicte -- The node was low on resource: ephemeral-storag

spark on k8s 集群发现kube-proxy-mkbp7异常,总是Evicted状态,其他node节点上pod正常。1. 通过kubectl describe pod XXXXX -n kube-system 查看pod信息,发现报错日志如下:The node was low on resource: ephemeral-storage. Container kube-pr...

2019-11-18 17:10:40 1291 2

原创 ERROR: unsatisfiable constraints:

背景:测试环境,基于spark-2.4.4代码,打镜像,供spark on k8s使用。问题:执行打包镜像命令,报错如下:docker build -t spark-2.4.4-merrily01-spark -f kubernetes/dockerfiles/spark/Dockerfile . ---> Running in 43e58e4f3a6f+ ...

2019-11-15 12:26:03 12710

原创 Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile

环境:spark:2.4.4maven:apache-maven-3.6.2java: 1.8背景:修改了spark源码,想基于此用spark的make-distribution.sh脚本重新打可部署的tar包,命令如下:./dev/make-distribution.sh --name maruilei-spark --tgz -Phadoop-2.7 -Phiv...

2019-11-15 12:17:35 3107 1

原创 Spark源码分析-应用程序到底是如何提交到Spark并运行的?

网上有不少关于Spark应用程序提交流程分析的文章,有的鞭辟入里、有的浅尝辄止。但由于Spark代码版本更迭或关注点的缘故,总有一些自己想知道的细节不能系统的获取。所以打算基于spark-2.4.4(3.0-release版本还未发版),记录下自己对Spark应用程序提交和运行流程源码的一些分析和理解,同时通过打断点代码调试的方式,将完整的代码执行流程分享给大家,希望能做到真正的手把手带你读Spa...

2019-11-08 15:47:07 198

原创 git如何checkout远程仓库tag

以Spark为例:1.git remote add Upstream https://github.com/apache/spark.git2.git remote update Upstream3. git tag (查看tag,找到自己需要的)4.git checkout v3.0.0-preview-rc2 (直接切换到目标tag,但是tag内容是不能修改的,因...

2019-11-07 10:36:26 27830

原创 Spark On Kubernetes报错Permission denied: user=root, access=WRITE, inode="/user/spark/log":hadoop:supe

Spark On Kubernetes 提交测试任务,driver pod 报错日志,如下:19/11/06 07:38:05 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!19/11/06 07:38:05 INFO SparkContext: S...

2019-11-06 15:54:15 769

原创 Spark on Kubernetes提交任务报错:Expected HTTP 101 response but was '403 Forbidden'

环境:Spark版本: 2.4.3Kubernetes版本:v1.16.2问题:提交spark-submit example.jar 以cluster方式到k8s集群,driver-pod报错如下:19/11/06 07:06:54 INFO ExecutorPodsAllocator: Going to request 5 executors from Kubernetes...

2019-11-06 15:28:43 7467

原创 Spark on Kubernetes提交测试任务失败报错:User "system:serviceaccount:default:default" cannot get resource "pods

Spark On Kubernetes 通过cluster方式提交spark-submit example.jar包测试任务,driver-pod创建成功,任务失败,driver pod报错日志如下:External scheduler cannot be instantiatedCaused by: io.fabric8.kubernetes.client.KubernetesClien...

2019-11-06 14:27:39 8266

原创 Spark On Kubernetes 提交测试任务

自己在虚拟机上搭建了一个kubernetes测试集群,通过Spark官方文档,提交一个测试任务到kubernetes集群上执行,记录一下:1. 提交命令:cluster模式:$ bin/spark-submit \ --master k8s://https://ip:port \ --deploy-mode cluster \ --name spark-pi ...

2019-11-06 14:11:25 1247 5

原创 kubernetes集群中打包并上传Spark镜像

打包镜像:docker build -t spark-2.4.3-image-merrily01 -f kubernetes/dockerfiles/spark/Dockerfile .docker push XXX遇到问题1:docker pushspark-2.4.3-image-merrily01 失败,报错:hadoop@master:/software/serv...

2019-11-06 13:15:57 434

原创 Failed to initialize compiler: object scala.runtime in compiler mirror-Spark Shell由于Scala编译器原因不能正常启动

有日子没用之前搭的测试集群,今天想用来测试下 Spark一个问题,发现spark-shell启动失败了,报错信息如下:hadoop@master:/software/servers/spark$ spark-shellListening for transport dt_socket at address: 900119/11/06 09:34:26 WARN NativeCodeLoa...

2019-11-06 10:50:32 1004 2

原创 搭建Spark源码阅读环境——Spark源码编译及本地调试

搭建Spark源码阅读环境——Spark源码编译及本地调试

2019-10-31 19:13:20 383

原创 linux下查看进程信息的方法

三个命令:1. jps 找到目标进程的pid;2. jinfo pid , 可以看进程相关参数等信息;2. jstack pid, 可以看到进程中各个线程的方法调用栈信息;

2019-10-31 18:09:00 629

原创 scala [ERROR] Failed to construct terminal; falling back to unsupported

使用scala-2.11.12版本,启动scala时,报错如下:Welcome to Scala 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_191).Type in expressions for evaluation. Or try :help.[ERROR] Failed to construct terminal;...

2019-10-30 17:27:45 4641 7

原创 不知道机器密码,如何通过远程获取传文件?

背景:两台机器,通过跳转方式进入,均不知道密码,想通过scp,实现传递文件,该如何实现?方案:1. 在其中一台机器,存放文件的目录下:python -m SimpleHTTPServer可以空格后跟端口号,默认端口是8000比如:python -m SimpleHTTPServer 80端口80 的时候 ,wget时不需要本地代理,非80端口,wget请求时,可能需要......

2019-07-26 19:16:50 350

原创 Spark源码分析(零):一定要学会的Spark源码远程调试方法remote debug

1. IDEA配置remote debug:2. 客户端设置监听:export SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=9001"3. 客户端提交任务(启动Spark),可以看到监听生效:Listening for ...

2019-07-15 10:18:41 366

11版本linux64位jdk.tar.gz.zip

这是oracle官方linux版64位jdk11,希望能提供给不方便从官网下载的同学使用,同时记录在此,方便自己使用

2020-08-06

protobuf-2.5.0.tar.gz、openssl-1.0.2l.tar.gz、cmake-3.0.2.tar.gz

本地搭建hadoop环境,所需的protobuf-2.5.0.tar.gz、cmake-3.0.2.tar.gz、openssl-1.0.2l.tar.gz打包下载

2018-07-31

redis-desktop-manager

redia用户界面客户端,方便redis开发与维护过程中,对数据操作使用。(跟mysql的客户端一个道理)

2017-10-27

Redis命令参考手册完整版(PDF)

Redis命令参考手册完整版 高清PDF格式,包含了Redis所有命令及开发相关知识。是Redis学习、开发与维护的不二之选!

2017-10-27

juniversalchardet-2.0.0.jar

juniversalchardet-2.0.0.jar是mozilla公司推出的用来识别文件内容字符集的jar包,特点是快速、准确、实用

2017-10-25

Eclipse中Java反编译.zip

想使用Eclipse看源码?只需下载该压缩包,将里面的两个压缩文件放到指定位置即可。(内附说明文档)

2017-10-24

nginx-1.8.0.zip

windows平台Nginx安装包压缩文件,使用方法:下载zip文件,解压缩后,双击nginx.exe即可安装成功

2017-10-19

fastjson-1.2.35.jar

fastjson用jar包,亲测可用。将jar包引入工程后,直接在代码中写相关逻辑即可。

2017-10-17

nexus-webapp-2.14.4-03.war

nexus-webapp-2.14.4-03.war 亲测可用,将war包放到tomcat的webapps路径下,启动tomcat部署,访问http://localhost:8080/nexus-webapp-2.14.4-03 即可

2017-10-10

eclipse插件m2e.zip

eclipse插件m2e,下载压缩包解压缩后,将压缩包内两个文件夹放到eclipse的dropins文件夹下,重启eclipse即可使用。

2017-10-09

apache-maven-3.0.5-bin.zip

maven-3.0.5版本,下载压缩文件后解压缩,配置环境变量即可使用maven

2017-10-09

nexus-2.7.0-06.war

放在tomcat的webapps下面即可,端口:8080,用户名密码:admin/admin123

2017-10-09

ValidateCode.jar

ValidateCode.jar工具类,实现验证码。亲测,显示效果可爱,方便获取验证码数据,简单易用!(PS:感觉比CSDN的验证码要好看^-^)

2017-06-16

实战Nginx取代Apache的高性能Web服务器.mobi

实战Nginx取代Apache的高性能Web服务器.mobi kindle用电子版

2017-06-15

vim 7.2 for windows

vim7.2 亲测稳定可用

2016-06-30

struts-2.0.11-all.zip

struts2.0jar包 struts2.0jar包源文件 7.58M 很全

2016-06-06

mysql-connector-java-5.1.7-bin

mysql-connector-java-5.1.7-bin 添加mysql数据库连接所需jar包

2016-05-29

mysql-connector-java-5.1.7-bin.jar

mysql-connector-java-5.1.7-bin.jar 添加mysql数据库连接支持

2016-05-29

hibernate-3.2.rar

hibernate-3.2开发相关所有jar包

2016-05-29

struts-2.0.11

struts2.0jar包 struts2.0jar包源文件

2016-05-29

TortoiseSVN

svn工具

2016-05-22

tomcat-6.0.32

tomcat-6.0.32 亲测可用 解压直接放到目录下 配置环境变量即可 简单方便

2016-05-22

翻译软件

翻译软件 小巧方便 开发者必备

2016-05-22

jd-gui.zip反编译工具

jd-gui.zip反编译工具 ,小巧方便,绿色版,解压即用,无广告纯净版

2016-05-22

eclipse苹果字体monaco

eclipse最好用的字体之一,简介明了,苹果官方Monaco字体!下载直接导入,亲测可用,简单方便。

2016-05-22

eclipse豆沙绿配置

eclipse豆沙绿 护眼配置 以及 eclipse 开发环境配色 ,导入即可使用,简单方便,再也不用挨个设置了。

2016-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除