我可以看到在我的wordpress网站的实时流量,眼镜机器人爬行不存在的网页。
www.example.gr/search/search-results/password-reset%252Fpassword-reset/password-reset%252Fpassword-reset%252F&listview=2/?pg=6&dtype=prosfata&listview=2
www.example.gr/search/search-results/password-reset%252F&listview=1/password-reset/search/advanced-search/tag/katigoria/gaming/?pg=15&order=lcomdate&dtype=prosfata&listview=1
我找不出谷歌机器人在哪里发现了这些链接,但几乎是谷歌爬行网站唯一的链接。
我为这些urls添加了noindex,noffolw,但是机器人我怎么能阻止这一切?为什么谷歌爬行只有这些urls?我认为这会导致CPU数量的增加。
还有一个问题。最近,我增加了缓存到我的网站。为了更快的速度,谷歌不应该在缓存的页面上搜索吗?当我使用“fetch as google”时,我可以看到没有缓存页面的爬行。
发布于 2017-08-02 13:10:06
Googlebot爬行它发现的任何URL:
检查您自己的网站,看看是否有链接到这些页面。如果不是,它可能是其他网站。谷歌可能能够告诉你在谷歌搜索控制台在爬行错误报告中的哪个网站。
您可以做的一件事是使用robots.txt来禁止整个目录的爬行。根据您的例子,/search将是一个很好的不允许的候选:
Disallow: /search它也有可能实际上不是Googlebot在爬行。它可能是一个机器人欺骗Googlebot,试图在您的网站上查找漏洞。您可以通过使用以下步骤检查IP地址来验证它是否确实是Googlebot:如何识别IP地址是否真的是google的IP
如果不是Googlebot,您可以阻止.htaccess:如何通过IP阻止VPN服务器的整个IP中使用的IP地址
https://webmasters.stackexchange.com/questions/106441
复制相似问题