我试着和Kafka合作来摄取数据,但是我对此还不熟悉,我有点困惑,我有多个爬虫,他们从web平台上为我提取数据。现在的问题是,我想摄取使用Kafka将数据提取到Hadoop而没有任何中间脚本/服务文件的内容。有可能吗?
发布于 2018-08-17 01:57:29
没有任何中间脚本/服务文件。有可能吗?
很遗憾,我不会。
你需要一些写在卡夫卡(你的刮刀)上的服务。无论您是将产品生成到Kafka HTTP链接中(然后编写一个中间的使用者/生产者来生成刮取的结果),还是只生成最终的刮掉的结果,这取决于您。
您还需要使用写入HDFS的主题的第二个服务。这可能是Kafka (通过Confluent的HDFS连接器库),或者PySpark (您必须自己编写的代码),或者包括“中间脚本/服务”的其他选项。
如果您想将这两个选项结合起来,我建议查看Apache或Streamset,它们可以执行HTTP查找、(X)HTML解析和Kafka+HDFS连接器,所有这些都是通过集中式GUI配置的。注意:我相信任何Python代码都必须用JVM语言重写,以支持这个管道中的主要自定义解析逻辑。
https://stackoverflow.com/questions/51876515
复制相似问题