我经常使用remote: true链接。在大多数情况下,响应可以是js或html,因此搜索机器人不会造成问题
但有些链接纯粹是js响应,没有HTML响应(这会导致异常和错误,导致大量监控工具、电子邮件、警报等)
我如何设置链接,使搜索机器人(谷歌,冰,其他爬虫)不会尝试它?
或者-是否有一种类型的响应我应该返回,以便爬虫知道不要返回到那个url?
发布于 2014-12-08 18:52:20
rel="nofollow"是你可以放在链接上的东西。这应该可以防止像谷歌这样的机器人抓取他们的https://support.google.com/webmasters/answer/96569?hl=en
https://stackoverflow.com/questions/27271332
复制相似问题