文章/答案/技术大牛

发布

社区首页 >问答首页 >当被拒绝的页面(机器人)仍然在sitemap.xml中时会发生什么？

问当被拒绝的页面(机器人)仍然在sitemap.xml中时会发生什么？
EN

Stack Overflow用户

提问于 2017-06-29 17:01:54

回答 2查看 32关注 0票数 0

我想防止一个页面被索引，以及它的资产(图片)。

因此，如果我告诉爬虫程序跳过该页面，但该页面仍在sitemap.xml中注册，那么该页面上的任何信息会被索引吗？

web-crawler

sitemap

robots.txt

sitemap.xml

seo

回答 2

Stack Overflow用户

发布于 2017-06-29 21:28:18

robots.txt不允许使用, not 。

如果您禁止对robots.txt中的网址进行爬行，并且将此网址列在网站地图中，则仍然不允许对其进行爬行。网站地图中的事件不会改变这一点。

不过，这个URL可能仍然会被索引(不管它是否在网站地图中)。

票数 0

Stack Overflow用户

发布于 2017-06-30 15:55:03

为了补充前面的答案，您可以在robots.txt文件中使用Noindex指令。它不是标准AFAIK的一部分，但却是常用的，请参阅blog -尽管关于它似乎有不同的意见。或者，你可以在你的网页中使用the robots meta tags。

像往常一样，不能保证所有的爬虫都会遵守机器人的指令，但主要的指令会。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44820660

复制

相似问题

问当被拒绝的页面(机器人)仍然在sitemap.xml中时会发生什么？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当被拒绝的页面(机器人)仍然在sitemap.xml中时会发生什么？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当被拒绝的页面(机器人)仍然在sitemap.xml中时会发生什么？
EN