问StormCrawler: URL规范
EN

Stack Overflow用户

提问于 2020-08-26 06:14:26

回答 1查看 41关注 0票数 0

我对StormCrawler非常陌生--由于我一直在探索文档以及README和其他资源，我注意到它经常被称为"URL数据库“，它应该处理从爬虫运行过程中存储有关URL的信息(例如，这里)。

但是，我在任何地方都找不到这个数据库的类型，也没有找到如何定制它或用自定义模块替换它。我一直在跟踪这段代码，并得到了IOOutputController，它有一些非常混乱的方法，而且由于缺乏docstring，实际上要确定负责处理这个问题的类是相当困难的。

如有任何指导，我将不胜感激！

谢谢你抽出时间，马蒂亚š

回答已采纳

发布于 2020-08-26 06:43:09

StormCrawler中最常用的URL存储是Elasticsearch。这在教程中得到了说明。还有其他可用的方法，如SQL或SOLR，请参阅在这里输入链接描述；StormCrawler不限于特定的数据库。在大多数情况下，人们只使用现有的后端实现，如Elasticsearch。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63591521

复制

相似问题

问StormCrawler: URL规范EN