首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >星火数据倾斜重分区与重命名键

星火数据倾斜重分区与重命名键
EN

Stack Overflow用户
提问于 2020-03-20 19:25:52
回答 1查看 78关注 0票数 1

我正在读一篇关于星火联接中数据偏斜的有趣文章。有一个例子,在数据集和调用的连接中都重命名了join列。作者声称这是可行的,但我不明白为什么它会工作,与前面的示例相比,连接是在不重新命名的情况下执行的。这篇文章是加入火种的艺术

该条的相关代码如下:

代码语言:javascript
复制
// The following row avoids the broadcasting, the dimension_table2 is very small
spark.conf.set("spark.sql.autoBroadcastJoinThreshold",-1)

// I'm using caching to simplify the DAG
dimension_table2.cache
dimension_table2.count

// One way to use the same partitioner is to partition on a column with the same name,
// let's rename the columns that we want to join
fact_table = fact_table.withColumnRenamed("dimension_2_key", "repartition_id")
dimension_table2 = dimension_table2.withColumnRenamed("id", "repartition_id")

fact_table = fact_table.repartition(400, fact_table.col("repartition_id"))

fact_table = fact_table.join(dimension_table2.repartition(400, dimension_table2.col("repartition_id")), 
                fact_table.col("repartition_id") === dimension_table2.col("repartition_id"), "left")
fact_table.count
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-06-11 16:00:47

我上面提到的那篇文章是不正确的。我没有看到与重命名的列有任何不同。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60780466

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档