首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在接近实时的分析中,为什么Lambda-->Firehose-->S3比Lambda -->S3更受欢迎?

在接近实时的分析中,为什么Lambda-->Firehose-->S3比Lambda -->S3更受欢迎?
EN

Stack Overflow用户
提问于 2020-12-27 01:20:22
回答 1查看 178关注 0票数 3

许多亚马逊网络服务的无服务器实时分析参考架构建议通过Kinesis Firehose将处理后的数据从Lambda推送到S3。

例如https://aws.amazon.com/blogs/big-data/create-real-time-clickstream-sessions-and-run-analytics-with-amazon-kinesis-data-analytics-aws-glue-and-amazon-athena/

为什么我们不能直接将数据从Lambda推送到S3?通过跳过mediator Kinesis Firehose组件来避免复杂性和额外成本不是更好吗?通过Lambda将实时数据直接写入S3有什么问题吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-12-27 01:42:19

主要是因为Firehose允许您对数据进行批处理。例如,它只会将128mb数据的文件压缩到S3中。它将收集传入的数据,直到达到阈值,将其写入S3并等待下一个数据。如果您让lambda直接写入S3,那么您将不得不自己进行批处理,如果您只有无状态的lambda,这是相当困难的。

也就是说,这主要适用于您的数据由许多记录/行组成的情况。另一方面,如果您基本上是在处理lambda输出的大小为50MB的数据,那么您可以/应该直接写入S3,因为在您的情况下,批处理可能是不可能的,也不是很有用。

你是否应该使用firehose仅仅取决于你有什么数据/吞吐量以及可能有什么需求。

直接将实时数据写入S3的一个问题是,如果你想用雅典娜查询它,如果你有几百万个几个字节大的文件,而不是100个大小为10 MB的文件,你会遇到很多麻烦。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65458856

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档