场景:我有一个AWS作业,它处理S3,并执行一些爬行以将数据从s3文件插入到rds中的postgres。
由于文件大小有时非常大,执行操作所需的时间很长,因此作业运行的时间超过2天。
作业脚本是用python编写的。
我正在寻找一种能够以某些方式提升这份工作的方法,例如:
任何回复都将不胜感激,谢谢!
发布于 2021-12-01 06:19:56
如果您只需要将完整的数据转储到rds中,则不需要爬行完整的数据。因此,如果要使用雅典娜或任何其他胶水组件查询该数据,爬虫是有用的,但是如果需要将数据转储到rds中,则可以尝试以下选项。
中。
)的批处理负载。
https://stackoverflow.com/questions/70179579
复制相似问题