问使用Elasticsearch的Nutch以外的爬虫程序
EN

Stack Overflow用户

提问于 2018-02-01 21:47:48

回答 1查看 1.2K关注 0票数 1

当我设置我的数据系统时，我正在尝试获得一些建议。我想设置一个网络爬行系统。它可能会定期抓取几百/上千个站点。

我知道Nutch并且用过Nutch，但是我想知道其他人是否知道比Nutch更好的爬虫。

我还使用了Elasticsearch作为索引器，很难让Nutch与更新版本的ES一起工作。

elasticsearch

web-crawler

nutch

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-02-01 22:19:20

你可以看看StormCrawler，它是基于Apache Storm的，它不仅是一个功能齐全的爬虫，而且还专注于近实时爬行。ES通常是非常更新的，在写这篇文章的时候，它支持ES v6.1.1 (https://github.com/DigitalPebble/storm-crawler/blob/master/external/elasticsearch/pom.xml#L20)，所以你可以使用它。请记住，这是一种与Nutch不同的方法和技术，尽管它使用了Apache Nutch背后的一些思想。

此外，在https://github.com/BruceDone/awesome-crawler中，您可以找到用许多不同语言编写的大量爬虫的列表。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48564305

复制

相似问题

问使用Elasticsearch的Nutch以外的爬虫程序
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Elasticsearch的Nutch以外的爬虫程序EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Elasticsearch的Nutch以外的爬虫程序
EN