liaodaoluyun-CSDN博客

原创 error: value foreach is not a member of Object

spark3.0.1,scala 2.12使用foreachPartition报错：error: value foreach is not a member of Object代码：df.foreachPartition(partition=>partition.foreach(println))报错:value foreach is not a member of Object df.foreachPartition(partition=>partition.fore..

2021-04-14 13:52:16 3011 1

原创 spark中将两个DataFrame并在一起

1.可以先生成一列唯一的id列，再进行join生成id列方法可以看我的另一篇：https://blog.csdn.net/liaodaoluyun/article/details/862326392.转成rdd，在使用zip()/zipPartitions() val df1: DataFrame = spark.range(0,10).toDF("col1") val df...

2020-12-23 12:07:31 1949

转载 Spark SQL在100TB上的自适应执行实践---Spark Adaptive Execution

github地址：https://github.com/Intel-bigdata/spark-adaptivegithub中中文文档链接(原文链接)：https://mp.weixin.qq.com/s?__biz=MzA4Mzc0NjkwNA==&mid=2650784030&idx=1&sn=2c61e166b535199ee53e579a5092ff80&amp...

2019-01-16 18:33:50 883

原创 spark DataFrame新增一列id列(单调递增，不重复)的几种方法

1.使用functions里面的monotonically_increasing_id(),生成单调递增，不保证连续，最大64bit，的一列.分区数不变。import org.apache.spark.sql.functions._val df1 = spark.range(0,1000).toDF("col1")val df2 = df1.withColumn("id", monoto...

2019-01-10 15:14:24 6136

原创 Livy : A REST Interface for Apache Spark

官网：http://livy.incubator.apache.org/Github：https://github.com/apache/incubator-livy概述：当前spark上的管控平台有spark job server，zeppelin，由于spark job server和zeppelin都存在一些缺陷，比如spark job server不支持提交sql，ze...

2018-11-08 16:49:54 830

原创 Elasticsearch的bulk用法（python）

这篇文章介绍Elasticsearch的bulk在Python中的用法，bulk API可以在单个请求中一次执行多个操作(index,udpate,create,delete)，使用这种方式可以极大的提升索引性能。在这里我们使用elasticsearch模块的helpers，helpers是bulk的帮助程序，是对bulk的封装。有三种方式bulk（），streaming_bul...

2018-09-03 11:44:22 20327

原创 Hadoop2.X的HA集群搭建

1.修改Linux主机名2.修改主机名和IP的映射关系 /etc/hosts3.关闭防火墙4.ssh免登陆5.安装JDK，配置环境变量等6.注意集群时间要同步集群部署节点角色的规划（7节点） ------------------ hadoop01 namenode zkfc hadoop02 namenode zkfc hado...

2018-07-17 17:31:15 141

原创 StructuredStreaming中的ForeachSink的用法（一）

Spark2.3中，StructuredStreaming目前支持的sink只有FileSink、KafkaSink、ConsoleSink、MemorySink和ForeachSink，如果有其他的需求我们只有通过ForeachSink自定义sink，这篇文件主要以写入到Redis和Mysql为例。要使用ForeachSink自定义sink，必须实现ForeachWrite...

2018-07-03 17:32:10 3591 1

Spark Adaptive Execution

英特尔大数据技术团队和百度大数据基础架构部工程师在Spark 社区版本的基础上，改进并实现了自适应执行引擎。已贡献给社区，这是他们在spark summit上的ppt

2019-01-16

spark2018欧洲峰会中关于StructuredStreaming中stateful stream processing的ppt

2019-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人