首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当被拒绝的页面(机器人)仍然在sitemap.xml中时会发生什么?

当被拒绝的页面(机器人)仍然在sitemap.xml中时会发生什么?
EN

Stack Overflow用户
提问于 2017-06-29 17:01:54
回答 2查看 32关注 0票数 0

我想防止一个页面被索引,以及它的资产(图片)。

因此,如果我告诉爬虫程序跳过该页面,但该页面仍在sitemap.xml中注册,那么该页面上的任何信息会被索引吗?

EN

回答 2

Stack Overflow用户

发布于 2017-06-29 21:28:18

robots.txt不允许使用, not

如果您禁止对robots.txt中的网址进行爬行,并且将此网址列在网站地图中,则仍然不允许对其进行爬行。网站地图中的事件不会改变这一点。

不过,这个URL可能仍然会被索引(不管它是否在网站地图中)。

票数 0
EN

Stack Overflow用户

发布于 2017-06-30 15:55:03

为了补充前面的答案,您可以在robots.txt文件中使用Noindex指令。它不是标准AFAIK的一部分,但却是常用的,请参阅blog -尽管关于它似乎有不同的意见。或者,你可以在你的网页中使用the robots meta tags

像往常一样,不能保证所有的爬虫都会遵守机器人的指令,但主要的指令会。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44820660

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档