问优化海王星批量加载作业？
EN

Stack Overflow用户

提问于 2021-09-24 23:59:51

回答 1查看 31关注 0票数 0

目前，我们有一个自动化引擎在运行，为我们的海王星历史负载排队数十亿个节点/边。

数据从Kafka中取出，并将批量CSVs写入S3以启动加载。目前，我上传的文件是在每批从队列中拉出几百万条记录之后。

我使用oversubscribe参数，并查看了批量优化的高级文档。我发现我每小时可以得到大约3600万张记录，但希望速度更快。我是否希望输出文件更大？我一次只能运行一个作业，并且我的队列经常被填满65个上限。

回答已采纳

发布于 2021-09-28 17:21:28

通常，较大的文件应该比较小的文件提供更好的性能，因为运行负载的工作线程将在它们之间分配文件。更大的实例也有助于更快地加载。如果可能，当您有大量数据要加载时，db.r5.12xlarge是一个很好的选择。一旦需要实现的写入量变慢，更小的实例就足够了，您可以再次缩减它的规模。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69322110

复制

相似问题

问优化海王星批量加载作业？EN