首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >StormCrawler如何识别种子urls?

StormCrawler如何识别种子urls?
EN

Stack Overflow用户
提问于 2018-09-20 15:17:05
回答 1查看 170关注 0票数 0

我使用风暴爬虫与mysql。

我有100个种子urls,但我的缓冲区大小只有50个。

如果一些种子的外链落在零号桶里会发生什么。在这种情况下,这些外链也会被视为种子吗?

风暴爬行器如何将种子urls与其他urls区分开来?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-20 20:52:54

我不太明白你的问题。种子URL与非种子URL没有差异。StormCrawler没有以任何特定的方式识别它们。种子URL一词简单地表示,它们被赋予爬虫作为起点。

这些存储桶不用于确定URL的优先级或区分它们,而是基于主机名或域,以便多个漏出实例能够并行读取它们,并保证站点的良好多样性以达到性能目的。

StormCrawler中的SQL模块不如其他后端(如SOLR或Elasticsearch )高效。它可以很好地与少数网站,但可能是较低的效率超过这一点。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52428375

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档