文章/答案/技术大牛

发布

社区首页 >问答首页 >利用kafka从爬虫中摄取数据

问利用kafka从爬虫中摄取数据
EN

Stack Overflow用户

提问于 2018-08-16 11:57:03

回答 1查看 2.3K关注 0票数 1

我试着和Kafka合作来摄取数据，但是我对此还不熟悉，我有点困惑，我有多个爬虫，他们从web平台上为我提取数据。现在的问题是，我想摄取使用Kafka将数据提取到Hadoop而没有任何中间脚本/服务文件的内容。有可能吗？

python

apache-kafka

web-crawler

kafka-producer-api

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-08-17 01:57:29

没有任何中间脚本/服务文件。有可能吗？

很遗憾，我不会。

你需要一些写在卡夫卡(你的刮刀)上的服务。无论您是将产品生成到Kafka HTTP链接中(然后编写一个中间的使用者/生产者来生成刮取的结果)，还是只生成最终的刮掉的结果，这取决于您。

您还需要使用写入HDFS的主题的第二个服务。这可能是Kafka (通过Confluent的HDFS连接器库)，或者PySpark (您必须自己编写的代码)，或者包括“中间脚本/服务”的其他选项。

如果您想将这两个选项结合起来，我建议查看Apache或Streamset，它们可以执行HTTP查找、(X)HTML解析和Kafka+HDFS连接器，所有这些都是通过集中式GUI配置的。注意:我相信任何Python代码都必须用JVM语言重写，以支持这个管道中的主要自定义解析逻辑。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51876515

复制

相似问题

问利用kafka从爬虫中摄取数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用kafka从爬虫中摄取数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用kafka从爬虫中摄取数据
EN