首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >kafka流媒体或spark流媒体

kafka流媒体或spark流媒体
EN

Stack Overflow用户
提问于 2018-03-06 11:16:58
回答 1查看 435关注 0票数 0

我现在在Python中使用kafka。我想知道是否需要Spark Kafka,或者我们可以通过pyKafka使用kafka。

我担心的是Spark在这个过程中产生了开销(pyspark),如果我们不使用任何spark函数,只需要Kafka流媒体。

使用Pyspark和kafka spark有什么不便之处?

EN

回答 1

Stack Overflow用户

发布于 2018-03-28 19:35:54

这完全取决于手头的用例,正如评论中所提到的,然而我在几个月前通过了同样的情况,我将尝试将我的知识转移到kafka-streams而不是spark-streaming。

在我的用例中,我们只使用spark从kafka进行实时流媒体,而不使用来做任何类型的映射-缩减、窗口、过滤、聚合。

鉴于上述情况,我基于3个维度进行了比较:

  1. Technicality
  2. DevOps
  3. Cost

下图显示了我说服我的团队迁移到使用kafka-streams并抑制spark的对照表,成本没有添加到镜像中,因为它完全取决于您的集群大小(HeadNode-WorkerNodes)。

注:,这是基于你的情况,我只是试着给你一个如何做比较的指针,但spark本身有很多好处,在这个问题中描述它是不相关的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49122833

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档