问使用Apache Kafka的实时流媒体
EN

Stack Overflow用户

提问于 2022-08-10 18:04:04

回答 1查看 189关注 0票数 0

我是Apache的新手，我用python项目完成了一些基本的Kafka。大多数都遵循创建producer.py (将数据插入主题)和consumer.py (从订阅的主题读取数据)文件的相同模式。根据我的理解，这不是实时处理，因为生产者文件没有连续读取数据。

我想知道如何使用kafka+python进行实时数据流，在这种情况下，数据不断地被输入卡夫卡。(我认为一种方法是使用一个工作流工具，比如prefect或airflow，并每隔几分钟安排一次，想知道这是否是正确的方法。)

Ps:我正在做的项目有REST形式的数据源，每隔几分钟更新一次。如果您能指导我如何在这个场景中使用kafka+python，那将是很有帮助的。

发布于 2022-08-10 18:09:32

卡夫卡的优势在于能够缓冲接收到的数据，以防消费者没有做好准备，或者在任何时候都无法处理负载。如果有适当的服务器和客户端配置(linger.ms在这里是一个重要的配置)，它可以像您希望的那样实时地进行。

您没有指定什么是“实时”，但通常假设服务器端有数据，并且假定使用者没有滞后，则应该在一秒钟或更短的时间内在使用者端获得数据。根据您的用例，这可能足以实时考虑它，或者它可能太长了。

如果您使用完美或气流，并安排每隔几分钟，这将不是一个实时的解决方案。您需要一个始终连接的使用者，即24/7，并且能够在服务器有额外的数据服务时立即响应。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73310831

复制

相似问题

问使用Apache Kafka的实时流媒体EN