- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 error: value foreach is not a member of Object
spark3.0.1,scala 2.12使用foreachPartition报错:error: value foreach is not a member of Object代码:df.foreachPartition(partition=>partition.foreach(println))报错:value foreach is not a member of Object df.foreachPartition(partition=>partition.fore..
2021-04-14 13:52:16 3011 1
原创 spark中将两个DataFrame并在一起
1.可以先生成一列唯一的id列,再进行join生成id列方法可以看我的另一篇:https://blog.csdn.net/liaodaoluyun/article/details/862326392.转成rdd,在使用zip()/zipPartitions() val df1: DataFrame = spark.range(0,10).toDF("col1") val df...
2020-12-23 12:07:31 1949
转载 Spark SQL在100TB上的自适应执行实践---Spark Adaptive Execution
github地址:https://github.com/Intel-bigdata/spark-adaptivegithub中中文文档链接(原文链接):https://mp.weixin.qq.com/s?__biz=MzA4Mzc0NjkwNA==&mid=2650784030&idx=1&sn=2c61e166b535199ee53e579a5092ff80&...
2019-01-16 18:33:50 883
原创 spark DataFrame新增一列id列(单调递增,不重复)的几种方法
1.使用functions里面的monotonically_increasing_id(),生成单调递增,不保证连续,最大64bit,的一列.分区数不变。import org.apache.spark.sql.functions._val df1 = spark.range(0,1000).toDF("col1")val df2 = df1.withColumn("id", monoto...
2019-01-10 15:14:24 6136
原创 Livy : A REST Interface for Apache Spark
官网:http://livy.incubator.apache.org/Github:https://github.com/apache/incubator-livy概述: 当前spark上的管控平台有spark job server,zeppelin,由于spark job server和zeppelin都存在一些缺陷,比如spark job server不支持提交sql,ze...
2018-11-08 16:49:54 830
原创 Elasticsearch的bulk用法(python)
这篇文章介绍Elasticsearch的bulk在Python中的用法,bulk API可以在单个请求中一次执行多个操作(index,udpate,create,delete),使用这种方式可以极大的提升索引性能。 在这里我们使用elasticsearch模块的helpers,helpers是bulk的帮助程序,是对bulk的封装。有三种方式bulk(),streaming_bul...
2018-09-03 11:44:22 20327
原创 Hadoop2.X的HA集群搭建
1.修改Linux主机名2.修改主机名和IP的映射关系 /etc/hosts3.关闭防火墙4.ssh免登陆5.安装JDK,配置环境变量等6.注意集群时间要同步 集群部署节点角色的规划(7节点) ------------------ hadoop01 namenode zkfc hadoop02 namenode zkfc hado...
2018-07-17 17:31:15 141
原创 StructuredStreaming中的ForeachSink的用法(一)
Spark2.3中,StructuredStreaming目前支持的sink只有FileSink、KafkaSink、ConsoleSink、MemorySink和ForeachSink,如果有其他的需求我们只有通过ForeachSink自定义sink,这篇文件主要以写入到Redis和Mysql为例。 要使用ForeachSink自定义sink,必须实现ForeachWrite...
2018-07-03 17:32:10 3591 1
Spark Adaptive Execution
2019-01-16
spark2018欧洲峰会中关于StructuredStreaming中stateful stream processing的ppt
2019-01-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人