首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >更新sitemap.xml有什么好处?

更新sitemap.xml有什么好处?
EN

Stack Overflow用户
提问于 2009-08-28 17:22:43
回答 3查看 644关注 0票数 0

下面的文本来自sitemaps.org。与爬虫做他们的工作相比,这样做有什么好处呢?

网站地图是一个简单的方式,让网站管理员告知搜索引擎的网页,在他们的网站上,可供爬行。最简单的形式是,Sitemap是一个XML文件,它列出站点的URL以及关于每个URL的附加元数据(最后一次更新它的时间、它通常更改的频率以及它相对于站点中其他URL的重要性),以便搜索引擎能够更智能地抓取站点。

编辑1:我希望得到足够的好处,这样我就可以证明开发该功能是正确的。目前,我们的系统还没有动态地提供站点地图,所以我们必须用爬虫创建一个站点地图,这不是一个很好的过程。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2009-08-28 17:43:55

爬虫也很“懒”,所以如果你给他们一个站点地图,上面有你所有的网站网址,他们更有可能在你的网站上索引更多的页面。

它们还使您能够对页面进行优先排序,这样爬虫就可以知道它们更改的频率,以及更新哪个页面更重要,这样他们就不会浪费时间来抓取没有更改的页面、丢失的页面,或者索引您不太关心的页面(以及丢失的页面)。

还有很多自动化 工具 online,您可以使用它们来抓取整个站点并生成站点地图。如果你的网站不是太大(少于几千个urls),这些都会工作得很好。

票数 1
EN

Stack Overflow用户

发布于 2009-08-28 17:34:35

就像该段所说的,sitemaps还提供了关于给定url的元数据,爬虫可能无法通过爬行来推断。sitemap充当爬虫的目录,这样它就可以对内容进行排序,并为重要的内容编制索引。

票数 0
EN

Stack Overflow用户

发布于 2009-08-28 18:46:33

sitemap帮助告诉爬虫哪些页面更重要,以及它们多久更新一次。这是真正无法通过扫描页面本身就能发现的信息。

爬虫有一个限制,有多少页的扫描你的网站,以及多少深度,他们遵循的链接。如果你有很多不太相关的页面,很多不同的URL到同一个页面,或者需要很多步骤才能到达的页面,爬虫会在到达最重要的页面之前停止。该网站地图提供了另一种方式,以方便地找到最互为因果的网页,而不必跟随链接和整理副本。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1348353

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档