如果出现以下情况,网络爬虫能够找到jpegs/映像吗?
$_SESSION作为密码保护。$_SESSION中的密码是否正确$_SESSION页面中不正确,则使用if状态的METAREFRESH是否会加载.所以爬行器无法访问.jpgs。我不希望这些图片能够出现在google/yahoo/bing/etc图像搜索中。我读了很多关于搜索引擎优化/机器人/爬虫,但我不确定这一点。
是这样的吗?
发布于 2013-10-08 18:44:15
Googlebot不能在auth后面爬行页面,尽管最好的方法是在一个名为robots.txt (http://www.robotstxt.org/)的文件中创建一个拒绝列表,如果您的站点位于根目录中,这将使您的内容不受任何SE的保护。在那里,您可以指定哪些页面将不会被爬行。另外,在任何链接中加入rel=的“不跟随”,将使SE不遵循该链接。
发布于 2013-10-08 17:32:52
如果页面使用存储在会话中的密码保护,则机器人/爬虫将找不到图像否。
但是,这当然取决于您如何处理机器人,如果您有一个成员区域,您不希望机器人在其中窥探,我建议您向未经授权的客户端发送302个响应,并在任何其他内容交付之前将它们传输到登录页面。
发布于 2013-10-09 05:07:22
我猜您的PHP密码保护页面只是“获取”这些图像的url (可能是arbit或db存储的)。
但是,如果有静态内容可以通过其他方式访问(提供链接),那么web爬虫最终会找到它。
我建议您使用一个机器人文件,指示网络爬虫忽略特定文件夹中的静态内容。
https://stackoverflow.com/questions/19254429
复制相似问题