首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Bixo构建垂直爬虫

使用Bixo构建垂直爬虫
EN

Stack Overflow用户
提问于 2010-07-19 02:56:06
回答 1查看 1.6K关注 0票数 3

我遇到了一个开源爬虫Bixo。有人试过吗?你能分享一下学习的过程吗?我们是否可以轻松地构建定向爬虫(与Nutch/Heritrix相比)?谢谢Nayn

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2010-07-20 05:21:15

我在一个大型社交网站的生产中使用了Bixo (每天1亿页面浏览量)来进行用户内容分类(基本上是任何用户制作的带有链接的内容)。

这是一个相当复杂的工作流程,使用级联

  • 重复数据删除URL、
  • 使Bixo检索页面内容、
  • 通过分类器推送页面内容以及
  • 为垃圾邮件帐户触发帐户吊销、运行垃圾邮件报告等。

如果您了解级联,那么Bixo的工作方式就像任何其他级联组件一样,本质上是将URL作为输入,并发出一堆与页面相关的信息作为输出。

一开始我低估的一件事是,对于许多垂直爬虫来说,爬行方面“只”是拼图中的一小块。围绕它的整个工作流程可能会变得非常复杂,如果你使用另一个孤立的爬虫产品,你需要找到一种方法来集成它。使用级联的Bixo将成为工作流的另一个输入。

Bixo本身似乎非常可靠。Ken Krugler (首席开发人员)反应非常灵敏,能够在一天内解决我一开始遇到的一些挂起问题(我的数据集包含许多“脏”URL)。他有一个非常全面的自动化测试套件,确保Bixo按设计工作。

总体而言,我不能高度推荐它。整个系统是我在6-9个月内完成的,我不认为我可以在这段时间内完成它。

票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3276808

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档