首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在spark中执行join时,是否可以使用join语句条件来过滤混洗中的行?

在spark中执行join时,是否可以使用join语句条件来过滤混洗中的行?
EN

Stack Overflow用户
提问于 2021-08-02 20:35:16
回答 1查看 27关注 0票数 0

假设我有以下join语句:

代码语言:javascript
复制
leftTable.join(
    rightTable,
    leftTable(joinColumn) =!= null and leftTable(joinColumn) === rightTable(joinColumn),
    "left_outer"
)

spark是否会对leftTable的join列中有null值的行进行混洗?

我最近遇到了一个偏差,并试图确定它是否可能是因为空值。因此,在这种情况下,我想知道spark是在混洗之前尽可能地评估连接语句,以最小化混洗,还是先混洗,然后在匹配两个表时评估所有内容。

EN

回答 1

Stack Overflow用户

发布于 2021-08-02 21:51:09

如果不影响您的功能,您可以简单地在leftTable数据帧上添加过滤器。

代码语言:javascript
复制
leftTable
.where(leftTable(joinColumn) =!= null)
.join(
    rightTable,
    leftTable(joinColumn) === rightTable(joinColumn),
    "left_outer"
)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68627660

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档