我想防止一个页面被索引,以及它的资产(图片)。
因此,如果我告诉爬虫程序跳过该页面,但该页面仍在sitemap.xml中注册,那么该页面上的任何信息会被索引吗?
发布于 2017-06-29 21:28:18
robots.txt不允许使用, not 。
如果您禁止对robots.txt中的网址进行爬行,并且将此网址列在网站地图中,则仍然不允许对其进行爬行。网站地图中的事件不会改变这一点。
不过,这个URL可能仍然会被索引(不管它是否在网站地图中)。
发布于 2017-06-30 15:55:03
为了补充前面的答案,您可以在robots.txt文件中使用Noindex指令。它不是标准AFAIK的一部分,但却是常用的,请参阅blog -尽管关于它似乎有不同的意见。或者,你可以在你的网页中使用the robots meta tags。
像往常一样,不能保证所有的爬虫都会遵守机器人的指令,但主要的指令会。
https://stackoverflow.com/questions/44820660
复制相似问题