对于一个搜索机器人,我正在进行一个设计,以:
*比较URI和
*确定哪些URI确实是同一页
处理重定向和别名:
案例1:重定向
案例2:别名,例如www
案例3: URL参数,例如sukshma.net/node#参数
我有两种方法可以遵循,一种是显式检查重定向以捕获第一种情况。另一种方法是“硬编码”别名,如www,适用于第二种情况。第二种方法(硬编码)别名是脆弱的。HTTP的URL规范没有提到将www用作别名(RFC 2616)
我还打算使用Canonical Meta-tag (HTTP/HTML),但如果我理解正确的话-我不能在所有情况下都依赖于该标记。
一定要分享你自己的经验。你知道在搜索机器人中检测重复项的参考白皮书实现吗?
发布于 2009-12-11 11:54:45
构建自己的网络爬虫是一种lot of work。考虑查看一些已有的开源爬行器,如JSpider、OpenWebSpider或many others。
发布于 2010-01-15 09:08:23
第一种情况下的可以通过简单的 来解决。
对于的第二种和第三种情况,维基百科对此进行了很好的解释:。
https://stackoverflow.com/questions/1885672
复制相似问题