首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >谷歌为什么要抓取不存在的URL?

谷歌为什么要抓取不存在的URL?
EN

Webmasters Stack Exchange用户
提问于 2017-05-19 10:37:57
回答 1查看 1.3K关注 0票数 2

我可以看到在我的wordpress网站的实时流量,眼镜机器人爬行不存在的网页。

www.example.gr/search/search-results/password-reset%252Fpassword-reset/password-reset%252Fpassword-reset%252F&listview=2/?pg=6&dtype=prosfata&listview=2

www.example.gr/search/search-results/password-reset%252F&listview=1/password-reset/search/advanced-search/tag/katigoria/gaming/?pg=15&order=lcomdate&dtype=prosfata&listview=1

我找不出谷歌机器人在哪里发现了这些链接,但几乎是谷歌爬行网站唯一的链接。

我为这些urls添加了noindex,noffolw,但是机器人我怎么能阻止这一切?为什么谷歌爬行只有这些urls?我认为这会导致CPU数量的增加。

还有一个问题。最近,我增加了缓存到我的网站。为了更快的速度,谷歌不应该在缓存的页面上搜索吗?当我使用“fetch as google”时,我可以看到没有缓存页面的爬行。

EN

回答 1

Webmasters Stack Exchange用户

发布于 2017-08-02 13:10:06

Googlebot爬行它发现的任何URL:

  • 在您自己和第三方网站上的链接
  • 页面上看起来像URL的文本
  • 看起来可能是URL的JavaScript字符串

检查您自己的网站,看看是否有链接到这些页面。如果不是,它可能是其他网站。谷歌可能能够告诉你在谷歌搜索控制台在爬行错误报告中的哪个网站。

您可以做的一件事是使用robots.txt来禁止整个目录的爬行。根据您的例子,/search将是一个很好的不允许的候选:

代码语言:javascript
复制
Disallow: /search

它也有可能实际上不是Googlebot在爬行。它可能是一个机器人欺骗Googlebot,试图在您的网站上查找漏洞。您可以通过使用以下步骤检查IP地址来验证它是否确实是Googlebot:如何识别IP地址是否真的是google的IP

如果不是Googlebot,您可以阻止.htaccess:如何通过IP阻止VPN服务器的整个IP中使用的IP地址

票数 2
EN
页面原文内容由Webmasters Stack Exchange提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://webmasters.stackexchange.com/questions/106441

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档