我是卡夫卡的新手,我用卡夫卡阅读了有关数据处理和进一步分析(例如火花)的东西,但对将数据放入卡夫卡的实际过程一无所知。我知道我得把它当成制片人。但是,例如,我如何从一个网络应用程序中发送跟踪数据,并将其应用到kafka中。我是否应该使用nginx日志文件作为能够直接将其写入kafka的生成器或服务器(例如,龙卷风和kafka的python )?如何创建一个非常简单的分析工具,从get请求中获取数据,并将其放入kafka进行进一步处理?
任何评论或评论,也只是一些小小的暗示,都会帮助我理解这件事。
发布于 2014-12-11 19:47:52
如果您可以选择使用能够直接写入Kafka的服务器(或者将生成器与应用程序代码集成),并且不会有任何其他缺点,那么我肯定会这样做,以避免整个日志文件解析步骤。在这种情况下,您可以将任何分析解决方案作为Kafka用户连接到下游,并将数据流到其中。
如果您决定先触摸web应用服务器上的磁盘,那么有许多解析和转发给Kafka的解决方案;Flume/Flafka、Logstash、KafkaCat等等。请看卡夫卡生态系统页面。其中一些选项提供了在数据到达之前将数据转换为Kafka经纪人的可能性,这在某些情况下可能是有价值的。
https://stackoverflow.com/questions/27430054
复制相似问题