自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (2)
  • 收藏
  • 关注

原创 error: value foreach is not a member of Object

spark3.0.1,scala 2.12使用foreachPartition报错:error: value foreach is not a member of Object代码:df.foreachPartition(partition=>partition.foreach(println))报错:value foreach is not a member of Object df.foreachPartition(partition=>partition.fore..

2021-04-14 13:52:16 3011 1

原创 spark中将两个DataFrame并在一起

1.可以先生成一列唯一的id列,再进行join生成id列方法可以看我的另一篇:https://blog.csdn.net/liaodaoluyun/article/details/862326392.转成rdd,在使用zip()/zipPartitions() val df1: DataFrame = spark.range(0,10).toDF("col1") val df...

2020-12-23 12:07:31 1949

转载 Spark SQL在100TB上的自适应执行实践---Spark Adaptive Execution

github地址:https://github.com/Intel-bigdata/spark-adaptivegithub中中文文档链接(原文链接):https://mp.weixin.qq.com/s?__biz=MzA4Mzc0NjkwNA==&mid=2650784030&idx=1&sn=2c61e166b535199ee53e579a5092ff80&amp...

2019-01-16 18:33:50 883

原创 spark DataFrame新增一列id列(单调递增,不重复)的几种方法

1.使用functions里面的monotonically_increasing_id(),生成单调递增,不保证连续,最大64bit,的一列.分区数不变。import org.apache.spark.sql.functions._val df1 = spark.range(0,1000).toDF("col1")val df2 = df1.withColumn("id", monoto...

2019-01-10 15:14:24 6136

原创 Livy : A REST Interface for Apache Spark

官网:http://livy.incubator.apache.org/Github:https://github.com/apache/incubator-livy概述:    当前spark上的管控平台有spark job server,zeppelin,由于spark job server和zeppelin都存在一些缺陷,比如spark job server不支持提交sql,ze...

2018-11-08 16:49:54 830

原创 Elasticsearch的bulk用法(python)

    这篇文章介绍Elasticsearch的bulk在Python中的用法,bulk API可以在单个请求中一次执行多个操作(index,udpate,create,delete),使用这种方式可以极大的提升索引性能。   在这里我们使用elasticsearch模块的helpers,helpers是bulk的帮助程序,是对bulk的封装。有三种方式bulk(),streaming_bul...

2018-09-03 11:44:22 20327

原创 Hadoop2.X的HA集群搭建

1.修改Linux主机名2.修改主机名和IP的映射关系 /etc/hosts3.关闭防火墙4.ssh免登陆5.安装JDK,配置环境变量等6.注意集群时间要同步    集群部署节点角色的规划(7节点)    ------------------    hadoop01   namenode   zkfc    hadoop02   namenode   zkfc    hado...

2018-07-17 17:31:15 141

原创 StructuredStreaming中的ForeachSink的用法(一)

Spark2.3中,StructuredStreaming目前支持的sink只有FileSink、KafkaSink、ConsoleSink、MemorySink和ForeachSink,如果有其他的需求我们只有通过ForeachSink自定义sink,这篇文件主要以写入到Redis和Mysql为例。       要使用ForeachSink自定义sink,必须实现ForeachWrite...

2018-07-03 17:32:10 3591 1

Spark Adaptive Execution

英特尔大数据技术团队和百度大数据基础架构部工程师在Spark 社区版本的基础上,改进并实现了自适应执行引擎。已贡献给社区,这是他们在spark summit上的ppt

2019-01-16

spark2018欧洲峰会中关于StructuredStreaming中stateful stream processing的ppt

spark2018欧洲峰会中关于StructuredStreaming中stateful stream processing的ppt

2019-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除