首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Bot网络质量

Bot网络质量
EN

Stack Overflow用户
提问于 2009-11-01 19:26:06
回答 2查看 258关注 0票数 1

我正在寻找一个良好的开源机器人,以确定一些质量,经常需要谷歌索引。

例如

  • 查找重复的标题
  • 无效链接( jspider会这样做,我认为会有更多的链接)
  • 完全相同的页面,但不同的urls
  • 等,其中etc等于谷歌的质量要求。
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2009-11-01 20:25:44

您的需求是非常具体的,所以不太可能有一个完全符合您需要的开源产品。

然而,有许多开源框架用于构建web爬虫。你使用哪一种取决于你的语言偏好。

例如:

  • 对于Python,请尝试使用刮痕
  • 对于Java,请尝试蛛形纲
  • 对于Ruby,请尝试使用海葵
  • 对于Perl,试一试 WWW::蜘蛛

通常,这些框架将提供类,用于根据给定的规则爬行和抓取站点的页面,但接下来要由您通过在自己的代码中挂钩来提取所需的数据。

票数 1
EN

Stack Overflow用户

发布于 2009-11-01 20:58:31

Google网站管理员工具是一种基于网络的服务(而不是按需机器人),它不做你所要求的所有事情--但它确实做了一些你没有要求的事情,而且--来自谷歌--它无疑符合你的古怪之处“等等,其中etc相当于谷歌的质量要求。”比其他任何地方都好。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1658069

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档