首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Nutch 2从爬网中排除内容类型的图像

Nutch 2从爬网中排除内容类型的图像
EN

Stack Overflow用户
提问于 2016-08-09 15:36:30
回答 1查看 114关注 0票数 0

问题是可能会有不具有特定图像扩展名的图像。例如,Nutch2正在爬行一个以.ashx结尾的页面,但它仍然是一个图像。

有没有一种方法可以不基于url模式(regex-urlfilter.txt)而使用HTML头过滤器:content-type: images/*或其他类似的东西来排除图片?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-08-09 19:42:16

这可以通过编写一个扩展URLFilter接口的plugin来实现。

String filter(String urlString)方法中,您可以检查URL是否具有模糊的扩展名,然后通过从服务器获取其HTTP头值来进一步验证,并检查其内容类型是否为图像,然后返回null,否则返回url。但我怀疑这不是非常有效的方法,因为许多无用的HTTP调用将仅为此验证目的而生成。

另一件事就是顺其自然,Nutch无论如何都不会解析和/或索引图像。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38844746

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档