我使用风暴爬虫与mysql。
我有100个种子urls,但我的缓冲区大小只有50个。
如果一些种子的外链落在零号桶里会发生什么。在这种情况下,这些外链也会被视为种子吗?
风暴爬行器如何将种子urls与其他urls区分开来?
发布于 2018-09-20 20:52:54
我不太明白你的问题。种子URL与非种子URL没有差异。StormCrawler没有以任何特定的方式识别它们。种子URL一词简单地表示,它们被赋予爬虫作为起点。
这些存储桶不用于确定URL的优先级或区分它们,而是基于主机名或域,以便多个漏出实例能够并行读取它们,并保证站点的良好多样性以达到性能目的。
StormCrawler中的SQL模块不如其他后端(如SOLR或Elasticsearch )高效。它可以很好地与少数网站,但可能是较低的效率超过这一点。
https://stackoverflow.com/questions/52428375
复制相似问题