首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >比较搜索机器人的URI?

比较搜索机器人的URI?
EN

Stack Overflow用户
提问于 2009-12-11 11:49:04
回答 2查看 98关注 0票数 2

对于一个搜索机器人,我正在进行一个设计,以:

*比较URI和

*确定哪些URI确实是同一页

处理重定向和别名:

案例1:重定向

案例2:别名,例如www

案例3: URL参数,例如sukshma.net/node#参数

我有两种方法可以遵循,一种是显式检查重定向以捕获第一种情况。另一种方法是“硬编码”别名,如www,适用于第二种情况。第二种方法(硬编码)别名是脆弱的。HTTP的URL规范没有提到将www用作别名(RFC 2616)

我还打算使用Canonical Meta-tag (HTTP/HTML),但如果我理解正确的话-我不能在所有情况下都依赖于该标记。

一定要分享你自己的经验。你知道在搜索机器人中检测重复项的参考白皮书实现吗?

EN

回答 2

Stack Overflow用户

发布于 2009-12-11 11:54:45

构建自己的网络爬虫是一种lot of work。考虑查看一些已有的开源爬行器,如JSpiderOpenWebSpidermany others

票数 0
EN

Stack Overflow用户

发布于 2010-01-15 09:08:23

第一种情况下的可以通过简单的 来解决。

对于的第二种和第三种情况,维基百科对此进行了很好的解释:。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1885672

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档