当我注意到Facebook、Debugger和其他爬虫工具无法解析我的页面时,整个事情就开始了。Facebook抛出一个关键错误,称它无法遵循重定向。我相信搜索引擎机器人也达到了同样的目的。该网站是正常运行通过所有主要的网页浏览器。
也许值得一提的是,我正在尝试使用ASP.NET路由,使用IIS8下的Web。
给定一个网站(http://example.com),下面是发生的情况。
案例1:试图访问根目录,这是我在网络嗅探器模拟器中得到的

案例1意见:
我注意到的第一件事是'302‘重定向,而不是'200 OK’。它提供302重定向与或不领先的'www‘。
我注意到,位置标头只是"/",这是由IIS的页面确认的,常规浏览器无法看到该页面,该页面被移动到"/“。我相信在这一点上有些事情搞砸了,爬行器由于某种原因无法继续前进。
案例2:试图使用Web模拟器访问给定的类别页面
案例2意见:
正如您可能已经知道的,完全相同的情况1。再次,Facebook调试器不能通过它,从而导致重定向它无法跟随。

问题:
1:我如何强制位置头中的绝对路径而不是相对路径,这是否足以让爬虫完成?
2:在网站的www版本和非www版本中,首先发生302次重定向的原因是什么?
发布于 2013-02-20 11:35:49
您的web应用程序很可能取决于cookie。应用程序发送一个Set-Cookie头并重定向到同一个页面,以便接收一个新的请求,其中包含可用的cookie数据。搜索引擎/机器人、Facebook和Web嗅探器模拟器不会发送那些cookie数据,因此web应用程序一直在发送302个重定向响应。
解决方案是将应用程序更改为不需要cookie,只需查看网页即可。
https://stackoverflow.com/questions/14966453
复制相似问题