文章/答案/技术大牛

发布

社区首页 >问答首页 >Apache Spark使用SQL函数nTile对数据进行分区

问Apache Spark使用SQL函数nTile对数据进行分区
EN

Stack Overflow用户

提问于 2020-11-14 06:00:28

回答 1查看 126关注 0票数 0

我正在尝试多种方法来使用分区来优化大型数据集的执行。具体地说，我使用的是一个通常用于传统SQL数据库的函数，称为nTile。

目标是使用buckettind和重新分区的组合将一定数量的行放入一个存储桶中。这使得Apache Spark在处理分区数据集或存储桶数据集时能够更高效地处理数据。

下面是两个例子。第一个示例展示了我如何使用ntile将一个数据集拆分为两个存储桶，然后在已存储桶的nTile上将数据重新分区为两个分区，名为skew_data。

然后，我使用相同的查询，但没有任何分词或重新分区。

问题是，没有分桶的查询比有分桶的查询更快，即使没有分桶的查询将所有数据放在一个分区中，而有分桶的查询将查询分成两个分区。

有人能告诉我这是为什么吗。

仅供参考，我在Databricks的Apache Spark集群上运行查询。该集群只有一个单节点，具有2个核心和15 and内存。

使用nTile/Bucketting和重新分区的第一个示例

allin = spark.sql("""
  SELECT
    t1.make
    , t2.model
    , NTILE(2) OVER (ORDER BY t2.sale_price) AS skew_data
  FROM 
    t1 INNER JOIN t2
    ON t1.engine_size = t2.engine_size2
""")
.repartition(2, col("skew_data"), rand())
.drop('skew_data')

上面的代码将数据划分为多个分区，如下所示，并具有相应的分区分布

Number of partitions: 2
Partitioning distribution: [5556767, 5556797]

第二个示例:没有nTile/Bucketting或重新分区

allin_NO_nTile = spark.sql("""
  SELECT
    t1.make
    ,t2.model
  FROM 
    t1 INNER JOIN t2
    ON t1.engine_size = t2.engine_size2
""")

上面的代码将所有数据放在一个分区中，如下所示：

Number of partitions: 1
Partitioning distribution: [11113564]

我的问题是，为什么第二个查询(没有nTile或重新分区)比使用nTile和重新分区的查询快？

我已经尽了最大的努力把这个问题写出来，但是如果你需要进一步的解释，请不要犹豫，尽管问。我真的很想查个水落石出。

apache-spark

pyspark

databricks

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-27 21:58:27

我放弃了原来的方法，使用了名为bucketBy()的新PySpark函数。如果您想知道如何将bucketBy()应用于存储桶数据，请转到https://www.youtube.com/watch?v=dv7IIYuQOXI&list=PLOmMQN2IKdjvowfXo_7hnFJHjcE3JOKwu&index=39

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64828573

复制

相似问题

问Apache Spark使用SQL函数nTile对数据进行分区
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Spark使用SQL函数nTile对数据进行分区EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Spark使用SQL函数nTile对数据进行分区
EN