文章/答案/技术大牛

发布

社区首页 >问答首页 >kafka-python-2.0.1大数据集的性能

问kafka-python-2.0.1大数据集的性能
EN

Stack Overflow用户

提问于 2020-11-06 10:53:19

回答 2查看 93关注 0票数 0

我正在使用kafka-python-2.0.1来消费来自kafka代理的数据。到目前为止，我只运行了一个消费者实例。我们每5分钟就会收到2M条记录。我注意到kafka-python不能以更快的速度读取数据以及时消费所有消息。我是kafka-python的新手，不确定如何实现才能更快地读取数据。我应该运行多个使用者吗？

consumer = KafkaConsumer(bootstrap_servers='<broker>',security_protocol='SASL_SSL', sasl_mechanism = 'GSSAPI', auto_offset_reset = 'latest', sasl_kerberos_service_name = 'kafka',ssl_cafile='<ca_file>', ssl_check_hostname=False,api_version=(0,10))

谢谢,

python-3.x

apache-kafka

kafka-consumer-api

kafka-python

回答 2

Stack Overflow用户

发布于 2020-11-07 14:46:33

Kafka根据topic内的分区数量进行扩展。

如果你想增加吞吐量，你可以增加主题的分区数量。然后请注意，每个分区最多只能由同一消费者组中的一个消费者使用。因此，您应该让消费者组中的消费者数量与主题的分区数量相匹配。

可以通过配置group_id在KafkaConsumer中设置消费组。

票数 0

Stack Overflow用户

发布于 2021-09-03 06:14:35

根据您的瓶颈所在，另一个想法可能是切换到另一个Kafka python库；kafka-python是纯python，而confluent-kafka-python (以及明显处于休眠状态的pykafka)使用C库来提高性能，它将其设置为关键的设计考虑因素

performance comparison from 2016报告它们之间存在9倍的性能差异

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64708194

复制

相似问题

问kafka-python-2.0.1大数据集的性能
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问kafka-python-2.0.1大数据集的性能EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问kafka-python-2.0.1大数据集的性能
EN