爬虫需要具有可扩展的体系结构,以允许更改内部流程,如实现新步骤(预解析器、解析器等)。
我找到了Heritrix Project (http://crawler.archive.org/)。
但是还有其他像这样的好项目吗?
发布于 2009-06-24 18:00:01
当涉及到免费爬虫时,Nutch是你能做的最好的选择。它是基于Lucene的概念构建的(以企业规模的方式),并由使用MapReduce (类似于谷歌)的Hadoop后端支持,用于大规模数据查询。伟大的产品!我目前正在从manning的新的(尚未发布的) Hadoop in Action中阅读关于Hadoop的所有内容。如果你走这条路,我建议你加入他们的技术审查团队,获得这本书的早期副本!
这些都是基于Java的。如果你是一个.net的家伙(像我一样!)然后,您可能会对Lucene.NET、Nutch.NET和Hadoop.NET更感兴趣,它们都是逐个类和逐个C#的api端口。
发布于 2011-02-11 17:59:49
您可能还想尝试Scrapy http://scrapy.org/
指定和运行爬虫真的很容易。
发布于 2012-11-29 00:40:40
Abot是一个很好的可扩展的网络爬虫。架构的每个部分都是可插拔的,让您可以完全控制其行为。它的开源,免费的商业和个人使用,用C#编写。
https://stackoverflow.com/questions/1039775
复制相似问题