文章/答案/技术大牛

发布

社区首页 >问答首页 >kafka流媒体或spark流媒体

问kafka流媒体或spark流媒体
EN

Stack Overflow用户

提问于 2018-03-06 11:16:58

回答 1查看 435关注 0票数 0

我现在在Python中使用kafka。我想知道是否需要Spark Kafka，或者我们可以通过pyKafka使用kafka。

我担心的是Spark在这个过程中产生了开销(pyspark)，如果我们不使用任何spark函数，只需要Kafka流媒体。

使用Pyspark和kafka spark有什么不便之处？

spark-streaming-kafka

apache-spark

pyspark

apache-kafka

回答 1

Stack Overflow用户

发布于 2018-03-28 19:35:54

这完全取决于手头的用例，正如评论中所提到的，然而我在几个月前通过了同样的情况，我将尝试将我的知识转移到kafka-streams而不是spark-streaming。

在我的用例中，我们只使用spark从kafka进行实时流媒体，而不使用来做任何类型的映射-缩减、窗口、过滤、聚合。

鉴于上述情况，我基于3个维度进行了比较：

Technicality
DevOps
Cost

下图显示了我说服我的团队迁移到使用kafka-streams并抑制spark的对照表，成本没有添加到镜像中，因为它完全取决于您的集群大小(HeadNode-WorkerNodes)。

注：，这是基于你的情况，我只是试着给你一个如何做比较的指针，但spark本身有很多好处，在这个问题中描述它是不相关的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49122833

复制

相似问题

问kafka流媒体或spark流媒体
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问kafka流媒体或spark流媒体EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问kafka流媒体或spark流媒体
EN