商业搜索引擎的爬虫是如何遍历web的:“识别种子页面并通过连接的链接找到其他页面”或“索引网站wwwroot目录下的每个文件”。
在后一种情况下,搜索引擎甚至应该有索引的东西,这些东西没有被任何其他页面引用?
发布于 2012-06-23 04:23:03
引用必须存在。它可以是
对于网站管理员在其搜索引擎backoffice
中提供的indexation
它可能是任何其他的链接。
https://stackoverflow.com/questions/11163454
相似问题