首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >kafka-python-2.0.1大数据集的性能

kafka-python-2.0.1大数据集的性能
EN

Stack Overflow用户
提问于 2020-11-06 10:53:19
回答 2查看 93关注 0票数 0

我正在使用kafka-python-2.0.1来消费来自kafka代理的数据。到目前为止,我只运行了一个消费者实例。我们每5分钟就会收到2M条记录。我注意到kafka-python不能以更快的速度读取数据以及时消费所有消息。我是kafka-python的新手,不确定如何实现才能更快地读取数据。我应该运行多个使用者吗?

consumer = KafkaConsumer(bootstrap_servers='<broker>',security_protocol='SASL_SSL', sasl_mechanism = 'GSSAPI', auto_offset_reset = 'latest', sasl_kerberos_service_name = 'kafka',ssl_cafile='<ca_file>', ssl_check_hostname=False,api_version=(0,10))

谢谢,

EN

回答 2

Stack Overflow用户

发布于 2020-11-07 14:46:33

Kafka根据topic内的分区数量进行扩展。

如果你想增加吞吐量,你可以增加主题的分区数量。然后请注意,每个分区最多只能由同一消费者组中的一个消费者使用。因此,您应该让消费者组中的消费者数量与主题的分区数量相匹配。

可以通过配置group_id在KafkaConsumer中设置消费组。

票数 0
EN

Stack Overflow用户

发布于 2021-09-03 06:14:35

根据您的瓶颈所在,另一个想法可能是切换到另一个Kafka python库;kafka-python是纯python,而confluent-kafka-python (以及明显处于休眠状态的pykafka)使用C库来提高性能,它将其设置为关键的设计考虑因素

performance comparison from 2016报告它们之间存在9倍的性能差异

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64708194

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档