我们的客户,给我们一个域名列表,并要求检查重定向域在该列表中。域与此类似:www.domain.com,,
domain.com,
subdomain1.domain.com,
subdomain1.subdomain2.domain.com,
StormCrawler只适用于URL。因此,如果我们想要将域列表提供给爬虫,我们需要执行一些预处理步骤。例如,我们可以在域的开始添加http或https协议,并在域的末尾添加斜杠。此外,客户需要知道重定向到不同域的域列表。例如,如果www.domain1.com重定向到www.domain2.com,我们需要报告这一点。我如何在StormCrawler项目中做到这一点?
发布于 2021-03-07 20:37:03
将域名转换为URL最好是将域放入种子列表或状态“发现”到状态索引中。当获取URL时(只使用深度筛选器将深度限制在种子上):在状态索引中查找URL,并使用指向不同域的元数据字段"_redirTo“报告所有URL。
https://stackoverflow.com/questions/66504753
复制相似问题