最近,我管理的GSA达到了被索引的URL的限制,就我所见,具有实际内容的URL的总数非常低,而不是页面列表的数量(大多数是按日期列出的,不是内容,而只是显示结果供用户导航)。
我已经添加了带有"noindex“属性的Robots meta标签,并且许多URL显示为"Excluded":

因此,我假设这些文档没有计入许可总数,但如果没有这个数量,我的抓取URL不可能达到500K的限制。
我的另一个猜测是,拥有多个集合将使文档计入总数,即使有时文档在几个集合中是重复的。
其他人也遇到过类似的问题吗?
发布于 2016-11-02 00:33:45
您是否收到已超出索引的警告?在您的许可上,GSA将爬行的URL的数量是有限制的,但您的许可中应该能够有大约100万个文档(在爬行/错误/排除之间)。只有500K可以在“抓取的URL”中。
https://stackoverflow.com/questions/40363725
复制相似问题