下面的文本来自sitemaps.org。与爬虫做他们的工作相比,这样做有什么好处呢?
网站地图是一个简单的方式,让网站管理员告知搜索引擎的网页,在他们的网站上,可供爬行。最简单的形式是,Sitemap是一个XML文件,它列出站点的URL以及关于每个URL的附加元数据(最后一次更新它的时间、它通常更改的频率以及它相对于站点中其他URL的重要性),以便搜索引擎能够更智能地抓取站点。
编辑1:我希望得到足够的好处,这样我就可以证明开发该功能是正确的。目前,我们的系统还没有动态地提供站点地图,所以我们必须用爬虫创建一个站点地图,这不是一个很好的过程。
发布于 2009-08-28 17:43:55
爬虫也很“懒”,所以如果你给他们一个站点地图,上面有你所有的网站网址,他们更有可能在你的网站上索引更多的页面。
它们还使您能够对页面进行优先排序,这样爬虫就可以知道它们更改的频率,以及更新哪个页面更重要,这样他们就不会浪费时间来抓取没有更改的页面、丢失的页面,或者索引您不太关心的页面(以及丢失的页面)。
还有很多自动化 工具 online,您可以使用它们来抓取整个站点并生成站点地图。如果你的网站不是太大(少于几千个urls),这些都会工作得很好。
发布于 2009-08-28 17:34:35
就像该段所说的,sitemaps还提供了关于给定url的元数据,爬虫可能无法通过爬行来推断。sitemap充当爬虫的目录,这样它就可以对内容进行排序,并为重要的内容编制索引。
发布于 2009-08-28 18:46:33
sitemap帮助告诉爬虫哪些页面更重要,以及它们多久更新一次。这是真正无法通过扫描页面本身就能发现的信息。
爬虫有一个限制,有多少页的扫描你的网站,以及多少深度,他们遵循的链接。如果你有很多不太相关的页面,很多不同的URL到同一个页面,或者需要很多步骤才能到达的页面,爬虫会在到达最重要的页面之前停止。该网站地图提供了另一种方式,以方便地找到最互为因果的网页,而不必跟随链接和整理副本。
https://stackoverflow.com/questions/1348353
复制相似问题