我现在在Python中使用kafka。我想知道是否需要Spark Kafka,或者我们可以通过pyKafka使用kafka。
我担心的是Spark在这个过程中产生了开销(pyspark),如果我们不使用任何spark函数,只需要Kafka流媒体。
使用Pyspark和kafka spark有什么不便之处?
发布于 2018-03-28 19:35:54
这完全取决于手头的用例,正如评论中所提到的,然而我在几个月前通过了同样的情况,我将尝试将我的知识转移到kafka-streams而不是spark-streaming。
在我的用例中,我们只使用spark从kafka进行实时流媒体,而不使用来做任何类型的映射-缩减、窗口、过滤、聚合。
鉴于上述情况,我基于3个维度进行了比较:
下图显示了我说服我的团队迁移到使用kafka-streams并抑制spark的对照表,成本没有添加到镜像中,因为它完全取决于您的集群大小(HeadNode-WorkerNodes)。
注:,这是基于你的情况,我只是试着给你一个如何做比较的指针,但spark本身有很多好处,在这个问题中描述它是不相关的。

https://stackoverflow.com/questions/49122833
复制相似问题