首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有谁知道一个好的可扩展的开源网络爬虫?

有谁知道一个好的可扩展的开源网络爬虫?
EN

Stack Overflow用户
提问于 2009-06-24 17:29:04
回答 5查看 19K关注 0票数 14

爬虫需要具有可扩展的体系结构,以允许更改内部流程,如实现新步骤(预解析器、解析器等)。

我找到了Heritrix Project (http://crawler.archive.org/)。

但是还有其他像这样的好项目吗?

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2009-06-24 18:00:01

当涉及到免费爬虫时,Nutch是你能做的最好的选择。它是基于Lucene的概念构建的(以企业规模的方式),并由使用MapReduce (类似于谷歌)的Hadoop后端支持,用于大规模数据查询。伟大的产品!我目前正在从manning的新的(尚未发布的) Hadoop in Action中阅读关于Hadoop的所有内容。如果你走这条路,我建议你加入他们的技术审查团队,获得这本书的早期副本!

这些都是基于Java的。如果你是一个.net的家伙(像我一样!)然后,您可能会对Lucene.NETNutch.NETHadoop.NET更感兴趣,它们都是逐个类和逐个C#的api端口。

票数 14
EN

Stack Overflow用户

发布于 2011-02-11 17:59:49

您可能还想尝试Scrapy http://scrapy.org/

指定和运行爬虫真的很容易。

票数 4
EN

Stack Overflow用户

发布于 2012-11-29 00:40:40

Abot是一个很好的可扩展的网络爬虫。架构的每个部分都是可插拔的,让您可以完全控制其行为。它的开源,免费的商业和个人使用,用C#编写。

https://github.com/sjdirect/abot

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1039775

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档