我是Apache的新手,我用python项目完成了一些基本的Kafka。大多数都遵循创建producer.py (将数据插入主题)和consumer.py (从订阅的主题读取数据)文件的相同模式。根据我的理解,这不是实时处理,因为生产者文件没有连续读取数据。
我想知道如何使用kafka+python进行实时数据流,在这种情况下,数据不断地被输入卡夫卡。(我认为一种方法是使用一个工作流工具,比如prefect或airflow,并每隔几分钟安排一次,想知道这是否是正确的方法。)
Ps:我正在做的项目有REST形式的数据源,每隔几分钟更新一次。如果您能指导我如何在这个场景中使用kafka+python,那将是很有帮助的。
发布于 2022-08-10 18:09:32
卡夫卡的优势在于能够缓冲接收到的数据,以防消费者没有做好准备,或者在任何时候都无法处理负载。如果有适当的服务器和客户端配置(linger.ms在这里是一个重要的配置),它可以像您希望的那样实时地进行。
您没有指定什么是“实时”,但通常假设服务器端有数据,并且假定使用者没有滞后,则应该在一秒钟或更短的时间内在使用者端获得数据。根据您的用例,这可能足以实时考虑它,或者它可能太长了。
如果您使用完美或气流,并安排每隔几分钟,这将不是一个实时的解决方案。您需要一个始终连接的使用者,即24/7,并且能够在服务器有额外的数据服务时立即响应。
https://stackoverflow.com/questions/73310831
复制相似问题