我们希望使用预测来加快过滤和连接到一个具有数千个小(kb大小)文件的大增量数据集上。
是否建议将主数据集( transforms.api.IncrementalTransformOutput.write_dataframe()与partitionBy=[col1, col2,...])进行分区,以减少文件数量,或者这是否是多余的工作,因为它无论如何都是由预测完成的?
如果建议优化主要数据集,是否有关于何时进行这一工作的指导方针?
发布于 2022-09-07 13:29:21
问得好!由于Spark使用分布式文件存储,因此可以使用许多技术来提高性能。答案在于您要在重新分区之后对数据做什么。需要对性能进行经验性测试(尝试一个设置并查看它是否有所改进),并查看构建报告以查看火花细节。您可以使用以下几种技术:
我建议您用一个最小的可验证示例编写一个具体的问题,我可以为您的用例提供一个更深入、更具体的答案。
https://stackoverflow.com/questions/73635789
复制相似问题