首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用StormCrawler查找重定向域

用StormCrawler查找重定向域
EN

Stack Overflow用户
提问于 2021-03-06 10:38:39
回答 1查看 26关注 0票数 0

我们的客户,给我们一个域名列表,并要求检查重定向域在该列表中。域与此类似:www.domain.com

domain.com,

subdomain1.domain.com,

subdomain1.subdomain2.domain.com,

StormCrawler只适用于URL。因此,如果我们想要将域列表提供给爬虫,我们需要执行一些预处理步骤。例如,我们可以在域的开始添加http或https协议,并在域的末尾添加斜杠。此外,客户需要知道重定向到不同域的域列表。例如,如果www.domain1.com重定向到www.domain2.com,我们需要报告这一点。我如何在StormCrawler项目中做到这一点?

EN

回答 1

Stack Overflow用户

发布于 2021-03-07 20:37:03

将域名转换为URL最好是将域放入种子列表或状态“发现”到状态索引中。当获取URL时(只使用深度筛选器将深度限制在种子上):在状态索引中查找URL,并使用指向不同域的元数据字段"_redirTo“报告所有URL。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66504753

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档