首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >web爬虫会在php密码保护页面中检测到这些jpeg吗?

web爬虫会在php密码保护页面中检测到这些jpeg吗?
EN

Stack Overflow用户
提问于 2013-10-08 17:30:39
回答 3查看 203关注 0票数 0

如果出现以下情况,网络爬虫能够找到jpegs/映像吗?

  1. 页面使用php $_SESSION作为密码保护。
  2. 在页面加载之前,网页检查$_SESSION中的密码是否正确
  3. 如果密码正确,则加载页面,加载.jpegs
  4. 如果密码在$_SESSION页面中不正确,则使用if状态的METAREFRESH是否会加载.所以爬行器无法访问.jpgs

我不希望这些图片能够出现在google/yahoo/bing/etc图像搜索中。我读了很多关于搜索引擎优化/机器人/爬虫,但我不确定这一点。

是这样的吗?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2013-10-08 18:44:15

Googlebot不能在auth后面爬行页面,尽管最好的方法是在一个名为robots.txt (http://www.robotstxt.org/)的文件中创建一个拒绝列表,如果您的站点位于根目录中,这将使您的内容不受任何SE的保护。在那里,您可以指定哪些页面将不会被爬行。另外,在任何链接中加入rel=的“不跟随”,将使SE不遵循该链接。

票数 1
EN

Stack Overflow用户

发布于 2013-10-08 17:32:52

如果页面使用存储在会话中的密码保护,则机器人/爬虫将找不到图像否。

但是,这当然取决于您如何处理机器人,如果您有一个成员区域,您不希望机器人在其中窥探,我建议您向未经授权的客户端发送302个响应,并在任何其他内容交付之前将它们传输到登录页面。

票数 1
EN

Stack Overflow用户

发布于 2013-10-09 05:07:22

我猜您的PHP密码保护页面只是“获取”这些图像的url (可能是arbit或db存储的)。

但是,如果有静态内容可以通过其他方式访问(提供链接),那么web爬虫最终会找到它。

我建议您使用一个机器人文件,指示网络爬虫忽略特定文件夹中的静态内容。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19254429

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档