首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >利用kafka从爬虫中摄取数据

利用kafka从爬虫中摄取数据
EN

Stack Overflow用户
提问于 2018-08-16 11:57:03
回答 1查看 2.3K关注 0票数 1

我试着和Kafka合作来摄取数据,但是我对此还不熟悉,我有点困惑,我有多个爬虫,他们从web平台上为我提取数据。现在的问题是,我想摄取使用Kafka将数据提取到Hadoop而没有任何中间脚本/服务文件的内容。有可能吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-08-17 01:57:29

没有任何中间脚本/服务文件。有可能吗?

很遗憾,我不会。

你需要一些写在卡夫卡(你的刮刀)上的服务。无论您是将产品生成到Kafka HTTP链接中(然后编写一个中间的使用者/生产者来生成刮取的结果),还是只生成最终的刮掉的结果,这取决于您。

您还需要使用写入HDFS的主题的第二个服务。这可能是Kafka (通过Confluent的HDFS连接器库),或者PySpark (您必须自己编写的代码),或者包括“中间脚本/服务”的其他选项。

如果您想将这两个选项结合起来,我建议查看Apache或Streamset,它们可以执行HTTP查找、(X)HTML解析和Kafka+HDFS连接器,所有这些都是通过集中式GUI配置的。注意:我相信任何Python代码都必须用JVM语言重写,以支持这个管道中的主要自定义解析逻辑。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51876515

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档