文章/答案/技术大牛

发布

社区首页 >问答首页 >AWS胶咨询，用于缩放或性能评估

问AWS胶咨询，用于缩放或性能评估
EN

Stack Overflow用户

提问于 2021-12-01 05:35:24

回答 1查看 265关注 0票数 0

场景:我有一个AWS作业，它处理S3，并执行一些爬行以将数据从s3文件插入到rds中的postgres。

由于文件大小有时非常大，执行操作所需的时间很长，因此作业运行的时间超过2天。

作业脚本是用python编写的。

我正在寻找一种能够以某些方式提升这份工作的方法，例如：

在作业中使用某种多线程选项来执行更快的执行，这是可行的吗？对此有什么选择/替代方案吗？
，有什么隐藏的或未开发的AWS选项，我可以尝试进行这种活动吗？
，有现成的想法吗？

任何回复都将不胜感激，谢谢！

amazon-web-services

aws-glue

python

multithreading

回答 1

Stack Overflow用户

发布于 2021-12-01 06:19:56

如果您只需要将完整的数据转储到rds中，则不需要爬行完整的数据。因此，如果要使用雅典娜或任何其他胶水组件查询该数据，爬虫是有用的，但是如果需要将数据转储到rds中，则可以尝试以下选项。

您可以使用胶水火花作业读取所有文件，并使用jdbc连接将数据加载到postgres.

中。

或您可以使用普通胶水库和pg8000库将文件加载到postgres中。您可以利用此实用程序(

)的批处理负载。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70179579

复制

相似问题

问AWS胶咨询，用于缩放或性能评估
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AWS胶咨询，用于缩放或性能评估EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AWS胶咨询，用于缩放或性能评估
EN