当我设置我的数据系统时,我正在尝试获得一些建议。我想设置一个网络爬行系统。它可能会定期抓取几百/上千个站点。
我知道Nutch并且用过Nutch,但是我想知道其他人是否知道比Nutch更好的爬虫。
我还使用了Elasticsearch作为索引器,很难让Nutch与更新版本的ES一起工作。
发布于 2018-02-01 22:19:20
你可以看看StormCrawler,它是基于Apache Storm的,它不仅是一个功能齐全的爬虫,而且还专注于近实时爬行。ES通常是非常更新的,在写这篇文章的时候,它支持ES v6.1.1 (https://github.com/DigitalPebble/storm-crawler/blob/master/external/elasticsearch/pom.xml#L20),所以你可以使用它。请记住,这是一种与Nutch不同的方法和技术,尽管它使用了Apache Nutch背后的一些思想。
此外,在https://github.com/BruceDone/awesome-crawler中,您可以找到用许多不同语言编写的大量爬虫的列表。
https://stackoverflow.com/questions/48564305
复制相似问题