首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从PySpark创建的HiveContext分区数据

从PySpark创建的HiveContext分区数据
EN

Stack Overflow用户
提问于 2020-09-01 12:12:42
回答 1查看 56关注 0票数 0

我正在从HiveContext中获取数据并创建DataFrame。为了获得性能上的好处,我想在应用联接操作之前对DF进行分区。如何在“ID”列上定义数据,然后在“ID”上应用联接

代码语言:javascript
复制
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
hiveCtx = HiveContext(spark)
df1 = hiveCtx.sql("select id,name,address from db.table1")
df2 = hiveCtx.sql("select id,name,marks from db.table2")

需要对数据执行以下操作

  1. Dataframe partitionBy‘ID’
  2. 由'ID'

加入

EN

回答 1

Stack Overflow用户

发布于 2020-09-01 19:06:02

您可以使用重新分区。

参考火花文档:https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=repartition#pyspark.sql.DataFrame.repartition

根据您的数据大小,选择no.of.partition。

代码语言:javascript
复制
df1= df1.repartition(7, "id")
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63687419

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档