最近,我收到了谷歌的电子邮件:Googlebot cant access your site。我试着在互联网上找一些关于这个问题的文章,其中大多数都是因为robots.txt文件被设置为User-agent: * Disallow: /,所以是我的。
我如何允许Goolebot和Bingbot爬行我的站点的内容?我打算把它写在下面,但我不确定。我在正确的轨道上吗?
User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
User-agent: *
Disallow: /发布于 2015-09-17 23:41:47
不,robots.txt文件的最后两行优先于前四行,因为前四行的语法不正确。因此,谷歌被禁止浏览你的网站。
要允许Google和Bing,您必须具体和单独地允许每个爬虫:
User-agent: googlebot
Disallow:
User-agent: bingbot
Disallow:
User-agent: *
Disallow: /向前看,看看你的robots.txt文件是否允许谷歌在你的谷歌网站管理员工具帐户中索引你的站点测试它。还可以看到官方robots.txt文档。
发布于 2015-09-18 00:10:14
根据您的robots.txt文件的内容和您的需要,您最好使该文件完全为空,甚至更好,也许通过链接到站点地图文件,以便搜索引擎可以找到您的URL。
我建议这样做是因为爬虫者通常认为他们可以访问任何东西。特别是通过使用Disallow,您试图告诉至少一个爬虫,它们不允许访问站点上的某些内容。
下面是谷歌使用的一个robots.txt示例的链接:
http://www.google.ca/robots.txt
https://webmasters.stackexchange.com/questions/85145
复制相似问题