文章/答案/技术大牛

发布

社区首页 >问答首页 >从PySpark创建的HiveContext分区数据

问从PySpark创建的HiveContext分区数据
EN

Stack Overflow用户

提问于 2020-09-01 12:12:42

回答 1查看 56关注 0票数 0

我正在从HiveContext中获取数据并创建DataFrame。为了获得性能上的好处，我想在应用联接操作之前对DF进行分区。如何在“ID”列上定义数据，然后在“ID”上应用联接

spark = SparkSession.builder.enableHiveSupport().getOrCreate()
hiveCtx = HiveContext(spark)
df1 = hiveCtx.sql("select id,name,address from db.table1")
df2 = hiveCtx.sql("select id,name,marks from db.table2")

需要对数据执行以下操作

Dataframe partitionBy‘ID’
由'ID'

加入

apache-spark

pyspark

partitioning

回答 1

Stack Overflow用户

发布于 2020-09-01 19:06:02

您可以使用重新分区。

参考火花文档：https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=repartition#pyspark.sql.DataFrame.repartition

根据您的数据大小，选择no.of.partition。

df1= df1.repartition(7, "id")

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63687419

复制

相似问题

问从PySpark创建的HiveContext分区数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从PySpark创建的HiveContext分区数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从PySpark创建的HiveContext分区数据
EN