目前,我们有一个自动化引擎在运行,为我们的海王星历史负载排队数十亿个节点/边。
数据从Kafka中取出,并将批量CSVs写入S3以启动加载。目前,我上传的文件是在每批从队列中拉出几百万条记录之后。
我使用oversubscribe参数,并查看了批量优化的高级文档。我发现我每小时可以得到大约3600万张记录,但希望速度更快。我是否希望输出文件更大?我一次只能运行一个作业,并且我的队列经常被填满65个上限。
发布于 2021-09-28 17:21:28
通常,较大的文件应该比较小的文件提供更好的性能,因为运行负载的工作线程将在它们之间分配文件。更大的实例也有助于更快地加载。如果可能,当您有大量数据要加载时,db.r5.12xlarge是一个很好的选择。一旦需要实现的写入量变慢,更小的实例就足够了,您可以再次缩减它的规模。
https://stackoverflow.com/questions/69322110
复制相似问题