我读了一些关于Web爬行的文章,学习了爬行的基础知识。根据他们的说法,网络爬虫只使用其他网页检索到的URL,并通过树(实际上是网格)
在这种情况下,爬虫如何确保最大的覆盖率。显然,可能有很多网站没有来自其他页面/网站的推荐链接。除了爬行和手动注册之外,搜索引擎还遵循其他机制吗?(即从域名注册处获取信息)
如果它们只是基于爬行,我们应该如何选择一组好的“根”站点来开始爬行呢?(我们无法预测结果。如果我们选择100个没有引用链接的站点,引擎将只显示100个站点+它们的内部页面)
发布于 2009-06-04 06:59:43
显然,可能有很多网站没有来自其他页面/网站的推荐链接。
我不认为这真的像你想的那样是个大问题。
搜索引擎是否遵循爬行和手动注册之外的其他机制?(即从域名注册处获取信息)
据我所知没有。
如果它们只是基于爬行,我们应该如何选择一组好的“根”站点来开始爬行?
任何一种像open directory project这样的通用网络目录都是一个理想的候选者,像Digg或del.icio.us这样的社会书签网站也是如此
发布于 2009-06-04 06:53:19
一种用于帮助爬虫的方法是“站点地图”。sitemap基本上是一个列出网站内容的文件,因此爬虫知道要导航到哪里,特别是当您的站点包含动态内容时。一个更准确的网站地图将大大提高爬虫的准确性。
以下是Google sitemap的一些信息:
http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40318
发布于 2009-06-04 06:59:18
没有一种神奇的机制可以让爬虫找到一个没有被任何其他已经爬行或没有手动添加到爬虫中的站点引用的站点。
爬虫程序只遍历链接图,从一组手动注册的根开始,因此是预定义的根。图外的所有内容对于爬虫来说都是无法到达的--它将无法找到这些内容。
https://stackoverflow.com/questions/948946
复制相似问题