虽然我使用Apache Storm已经有一段时间了,但我对StormCrawler还是相当陌生的。
我从StormCrawler+ES原型开始了一个项目。但是,要定制StormCrawler,应该在什么特定点添加额外的螺栓?
戴夫。
发布于 2020-08-03 20:34:55
一种方法是编写一个自定义螺栓,并将其添加到获取器和解析器之间。它应该查看http响应中给定的任何mimetype的元数据(请记住用于存储info from the protocol的前缀),可能会检测到JSOUPParser中的mimetype。如果是图像,则对其进行特定处理,然后输出到输出。如果不是,则发送到自定义流;后者将连接到JSOUP解析器,以便获得外部链接;前者进入ES。
您可以在不同的地方找到处理非缺省流的示例,特别是Tika module。
https://stackoverflow.com/questions/63203895
复制相似问题