我正在从HiveContext中获取数据并创建DataFrame。为了获得性能上的好处,我想在应用联接操作之前对DF进行分区。如何在“ID”列上定义数据,然后在“ID”上应用联接
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
hiveCtx = HiveContext(spark)
df1 = hiveCtx.sql("select id,name,address from db.table1")
df2 = hiveCtx.sql("select id,name,marks from db.table2")需要对数据执行以下操作
加入
发布于 2020-09-01 19:06:02
您可以使用重新分区。
根据您的数据大小,选择no.of.partition。
df1= df1.repartition(7, "id")https://stackoverflow.com/questions/63687419
复制相似问题