首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Elasticsearch的Nutch以外的爬虫程序

使用Elasticsearch的Nutch以外的爬虫程序
EN

Stack Overflow用户
提问于 2018-02-01 21:47:48
回答 1查看 1.2K关注 0票数 1

当我设置我的数据系统时,我正在尝试获得一些建议。我想设置一个网络爬行系统。它可能会定期抓取几百/上千个站点。

我知道Nutch并且用过Nutch,但是我想知道其他人是否知道比Nutch更好的爬虫。

我还使用了Elasticsearch作为索引器,很难让Nutch与更新版本的ES一起工作。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-02-01 22:19:20

你可以看看StormCrawler,它是基于Apache Storm的,它不仅是一个功能齐全的爬虫,而且还专注于近实时爬行。ES通常是非常更新的,在写这篇文章的时候,它支持ES v6.1.1 (https://github.com/DigitalPebble/storm-crawler/blob/master/external/elasticsearch/pom.xml#L20),所以你可以使用它。请记住,这是一种与Nutch不同的方法和技术,尽管它使用了Apache Nutch背后的一些思想。

此外,在https://github.com/BruceDone/awesome-crawler中,您可以找到用许多不同语言编写的大量爬虫的列表。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48564305

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档