Spark streaming应用程序实时接收来自大量IoT设备的数据。但它们都是少量的数据。整体流程看起来像是-> Iot -> Kafka(1个主题/所有数据) ->火花流(过滤错误日志) -> DB(保存) ->警报屏幕
有没有使用spark或python进行实时日志分析的好方法?

发布于 2020-11-19 11:22:39
显然,您可以使用spark- Kafka连接器来流式传输Kafka队列中的数据。
本文档对Kafka - https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html的结构化流式处理有一定的参考价值
从kafka获得流数据帧后,可以应用spark中的filter()函数来过滤传入的数据集。
此外,这篇来自databricks的文档对我们如何使用spark streaming实现日志分析应用程序有一些很好的参考。
你可以参考上面的内容!
https://stackoverflow.com/questions/64902515
复制相似问题