首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何自定义StormCrawler?

如何自定义StormCrawler?
EN

Stack Overflow用户
提问于 2020-08-01 17:53:01
回答 1查看 111关注 0票数 0

虽然我使用Apache Storm已经有一段时间了,但我对StormCrawler还是相当陌生的。

我从StormCrawler+ES原型开始了一个项目。但是,要定制StormCrawler,应该在什么特定点添加额外的螺栓?

戴夫。

EN

回答 1

Stack Overflow用户

发布于 2020-08-03 20:34:55

一种方法是编写一个自定义螺栓,并将其添加到获取器和解析器之间。它应该查看http响应中给定的任何mimetype的元数据(请记住用于存储info from the protocol的前缀),可能会检测到JSOUPParser中的mimetype。如果是图像,则对其进行特定处理,然后输出到输出。如果不是,则发送到自定义流;后者将连接到JSOUP解析器,以便获得外部链接;前者进入ES。

您可以在不同的地方找到处理非缺省流的示例,特别是Tika module

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63203895

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档