首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >StormCrawler: URL规范

StormCrawler: URL规范
EN

Stack Overflow用户
提问于 2020-08-26 06:14:26
回答 1查看 41关注 0票数 0

我对StormCrawler非常陌生--由于我一直在探索文档以及README和其他资源,我注意到它经常被称为"URL数据库“,它应该处理从爬虫运行过程中存储有关URL的信息(例如,这里)。

但是,我在任何地方都找不到这个数据库的类型,也没有找到如何定制它或用自定义模块替换它。我一直在跟踪这段代码,并得到了IOOutputController,它有一些非常混乱的方法,而且由于缺乏docstring,实际上要确定负责处理这个问题的类是相当困难的。

如有任何指导,我将不胜感激!

谢谢你抽出时间,马蒂亚š

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-08-26 06:43:09

StormCrawler中最常用的URL存储是Elasticsearch。这在教程中得到了说明。还有其他可用的方法,如SQL或SOLR,请参阅在这里输入链接描述;StormCrawler不限于特定的数据库。在大多数情况下,人们只使用现有的后端实现,如Elasticsearch。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63591521

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档