我遇到了一个开源爬虫Bixo。有人试过吗?你能分享一下学习的过程吗?我们是否可以轻松地构建定向爬虫(与Nutch/Heritrix相比)?谢谢Nayn
发布于 2010-07-20 05:21:15
我在一个大型社交网站的生产中使用了Bixo (每天1亿页面浏览量)来进行用户内容分类(基本上是任何用户制作的带有链接的内容)。
这是一个相当复杂的工作流程,使用级联
如果您了解级联,那么Bixo的工作方式就像任何其他级联组件一样,本质上是将URL作为输入,并发出一堆与页面相关的信息作为输出。
一开始我低估的一件事是,对于许多垂直爬虫来说,爬行方面“只”是拼图中的一小块。围绕它的整个工作流程可能会变得非常复杂,如果你使用另一个孤立的爬虫产品,你需要找到一种方法来集成它。使用级联的Bixo将成为工作流的另一个输入。
Bixo本身似乎非常可靠。Ken Krugler (首席开发人员)反应非常灵敏,能够在一天内解决我一开始遇到的一些挂起问题(我的数据集包含许多“脏”URL)。他有一个非常全面的自动化测试套件,确保Bixo按设计工作。
总体而言,我不能高度推荐它。整个系统是我在6-9个月内完成的,我不认为我可以在这段时间内完成它。
https://stackoverflow.com/questions/3276808
复制相似问题