首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >优化海王星批量加载作业?

优化海王星批量加载作业?
EN

Stack Overflow用户
提问于 2021-09-24 23:59:51
回答 1查看 31关注 0票数 0

目前,我们有一个自动化引擎在运行,为我们的海王星历史负载排队数十亿个节点/边。

数据从Kafka中取出,并将批量CSVs写入S3以启动加载。目前,我上传的文件是在每批从队列中拉出几百万条记录之后。

我使用oversubscribe参数,并查看了批量优化的高级文档。我发现我每小时可以得到大约3600万张记录,但希望速度更快。我是否希望输出文件更大?我一次只能运行一个作业,并且我的队列经常被填满65个上限。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-09-28 17:21:28

通常,较大的文件应该比较小的文件提供更好的性能,因为运行负载的工作线程将在它们之间分配文件。更大的实例也有助于更快地加载。如果可能,当您有大量数据要加载时,db.r5.12xlarge是一个很好的选择。一旦需要实现的写入量变慢,更小的实例就足够了,您可以再次缩减它的规模。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69322110

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档