问题是可能会有不具有特定图像扩展名的图像。例如,Nutch2正在爬行一个以.ashx结尾的页面,但它仍然是一个图像。
有没有一种方法可以不基于url模式(regex-urlfilter.txt)而使用HTML头过滤器:content-type: images/*或其他类似的东西来排除图片?
发布于 2016-08-09 19:42:16
这可以通过编写一个扩展URLFilter接口的plugin来实现。
在String filter(String urlString)方法中,您可以检查URL是否具有模糊的扩展名,然后通过从服务器获取其HTTP头值来进一步验证,并检查其内容类型是否为图像,然后返回null,否则返回url。但我怀疑这不是非常有效的方法,因为许多无用的HTTP调用将仅为此验证目的而生成。
另一件事就是顺其自然,Nutch无论如何都不会解析和/或索引图像。
https://stackoverflow.com/questions/38844746
复制相似问题