好吧,过去两天我一直在寻找一台适合我需要的爬虫。我想建立一个搜索引擎,我想自己做索引。这将是一个学术项目的一部分。虽然我没有处理能力来抓取整个网页,我想使用一个爬虫,实际上是能够做到这一点。所以我要找的是一台爬虫
它不需要(必须)做的是:
我发现了一些非常接近我需求的库/项目,但据我所知,它们并不支持我所需要的一切:
我还看了更完整和复杂的“爬行器”,如Heritrix和Nutch。虽然我不太擅长更复杂的东西,但我绝对愿意使用它,如果我确信它将能够做我需要它做的事情:抓取网页,给我所有的网页,以便我可以阅读它们。
长话短说:我正在寻找一个爬虫,在所有网页上的速度非常快,并给我做一些事情的机会,与他们。
发布于 2013-03-22 18:06:35
AFAIK,Apache适合您的大部分需求。Nutch也有一个插件架构,如果您需要的话,它可以帮助您编写自己的插件。您可以通过wiki询问邮件列表中是否有任何问题。
0
https://stackoverflow.com/questions/14603330
复制相似问题