我正在用Nutch抓取图片。我的代码以某种方式工作,当它只找到一个标签时,它会处理找到的图像。它工作得很好,但有一个问题,在这个过程中,大量的缩略图被抓取和处理,而我需要的是实际的图像。在某些情况下,我确实会得到实际的图像以及它的缩略图,但在许多情况下,我在我爬取的图像集中找不到实际的图像。这个来自墙纸收集网站的快照可能有助于了解这些缩略图被爬行和处理而不是实际图像的情况。

以下是代码的简单草图。
while(nodeWalker.hasNext()){
//some code
if("img".equalsIgnoreCase(nodeName) && nodeType == Node.ELEMENT_NODE){
//image detected
//get image Url, do more.....
}
} 我在网上搜索,但找不到我该如何实现这一点。
发布于 2017-04-30 21:17:19
就我的Nutch知识而言,你无法区分图像和缩略图,因为缩略图本身就是图像。
你需要自己添加一些逻辑,能够区分缩略图和你正在搜索的实际图像。
例如,您可以验证该图像是否是链接到另一个图像或类似内容的锚点的一部分。
https://stackoverflow.com/questions/43704953
复制相似问题