文章/答案/技术大牛

发布

社区首页 >问答首页 >StormCrawler如何识别种子urls？

问StormCrawler如何识别种子urls？
EN

Stack Overflow用户

提问于 2018-09-20 15:17:05

回答 1查看 170关注 0票数 0

我使用风暴爬虫与mysql。

我有100个种子urls，但我的缓冲区大小只有50个。

如果一些种子的外链落在零号桶里会发生什么。在这种情况下，这些外链也会被视为种子吗？

风暴爬行器如何将种子urls与其他urls区分开来？

stormcrawler

web-crawler

apache-storm

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-20 20:52:54

我不太明白你的问题。种子URL与非种子URL没有差异。StormCrawler没有以任何特定的方式识别它们。种子URL一词简单地表示，它们被赋予爬虫作为起点。

这些存储桶不用于确定URL的优先级或区分它们，而是基于主机名或域，以便多个漏出实例能够并行读取它们，并保证站点的良好多样性以达到性能目的。

StormCrawler中的SQL模块不如其他后端(如SOLR或Elasticsearch )高效。它可以很好地与少数网站，但可能是较低的效率超过这一点。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52428375

复制

相似问题

问StormCrawler如何识别种子urls？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问StormCrawler如何识别种子urls？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问StormCrawler如何识别种子urls？
EN