首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在找到缩略图时获取实际图像?

如何在找到缩略图时获取实际图像?
EN

Stack Overflow用户
提问于 2017-04-30 17:33:44
回答 1查看 73关注 0票数 1

我正在用Nutch抓取图片。我的代码以某种方式工作,当它只找到一个标签时,它会处理找到的图像。它工作得很好,但有一个问题,在这个过程中,大量的缩略图被抓取和处理,而我需要的是实际的图像。在某些情况下,我确实会得到实际的图像以及它的缩略图,但在许多情况下,我在我爬取的图像集中找不到实际的图像。这个来自墙纸收集网站的快照可能有助于了解这些缩略图被爬行和处理而不是实际图像的情况。

以下是代码的简单草图。

代码语言:javascript
复制
while(nodeWalker.hasNext()){
             //some code

  if("img".equalsIgnoreCase(nodeName) && nodeType == Node.ELEMENT_NODE){

            //image detected 
            //get image Url, do more.....
  }
} 

我在网上搜索,但找不到我该如何实现这一点。

EN

回答 1

Stack Overflow用户

发布于 2017-04-30 21:17:19

就我的Nutch知识而言,你无法区分图像和缩略图,因为缩略图本身就是图像。

你需要自己添加一些逻辑,能够区分缩略图和你正在搜索的实际图像。

例如,您可以验证该图像是否是链接到另一个图像或类似内容的锚点的一部分。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43704953

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档