在the docs中,据说亚马逊网络服务默认为每个ETL任务分配10个DPU,每个开发端点默认分配5个DPU,即使两者都可以配置最少2个DPU。
它还提到,爬行也是以秒为增量定价的,最小运行时间为10分钟,但没有指定分配了多少DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU,但我还没有看到爬虫程序有任何这样的配置。
每个爬虫有固定数量的DPU吗?我们能控制这个数量吗?
发布于 2020-10-22 22:08:18
这是我与AWS Support就此主题进行的对话:
你好,我想知道爬虫使用多少DPU来计算我使用爬虫的成本。
他们的答案是:
尊敬的亚马逊网络服务客户:
感谢你今天伸出援手。我叫萨法里,我会协助您办案。
我知道在编译Glue爬虫的成本时,您想知道一个特定爬虫使用的DPU的数量。
不幸的是,没有直接的方法来找出给定爬虫对DPU的消耗。给您带来的不便,我深表歉意。但是,您可能会在您的详细账单中的亚马逊网络服务费用>胶水>{地区}>亚马逊网络服务胶水CrawlerRun部分下看到所有爬虫的总DPU消耗。此外,您还可以将标签添加到爬虫程序,然后从AWS账单和成本管理控制台启用“成本分配标签”。这将允许AWS生成按预定义标签分组的成本分配报告。有关更多信息,请参阅下面的文档链接1。
我希望这能帮到你。如果我能为您提供任何其他帮助,请告诉我。
参考文献1:https://docs.aws.amazon.com/awsaccountbilling/latest/aboutv2/cost-alloc-tags.html
发布于 2018-03-11 01:58:56
还与AWS支持团队进行了讨论,目前无法修改或查看Glue - crawlers的DPU配置详细信息。但是,爬虫使用DPU吗?
https://stackoverflow.com/questions/49161251
复制相似问题