问Nutch 2从爬网中排除内容类型的图像
EN

Stack Overflow用户

提问于 2016-08-09 15:36:30

回答 1查看 114关注 0票数 0

问题是可能会有不具有特定图像扩展名的图像。例如，Nutch2正在爬行一个以.ashx结尾的页面，但它仍然是一个图像。

有没有一种方法可以不基于url模式(regex-urlfilter.txt)而使用HTML头过滤器：content-type: images/*或其他类似的东西来排除图片？

nutch

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-08-09 19:42:16

这可以通过编写一个扩展URLFilter接口的plugin来实现。

在String filter(String urlString)方法中，您可以检查URL是否具有模糊的扩展名，然后通过从服务器获取其HTTP头值来进一步验证，并检查其内容类型是否为图像，然后返回null，否则返回url。但我怀疑这不是非常有效的方法，因为许多无用的HTTP调用将仅为此验证目的而生成。

另一件事就是顺其自然，Nutch无论如何都不会解析和/或索引图像。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38844746

复制

相似问题

问Nutch 2从爬网中排除内容类型的图像
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nutch 2从爬网中排除内容类型的图像EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nutch 2从爬网中排除内容类型的图像
EN