文章/答案/技术大牛

发布

问Scrapy忽略allowed_domains？
EN

Stack Overflow用户

提问于 2014-12-27 22:13:50

回答 1查看 1.5K关注 0票数 3

Scrapy忽略了我的爬虫规则，甚至遵循了不允许的域名。

self.start_urls = [ 'http://www.domain.de' ]
self.allowed_domains = [ 'domain.de' ]

但在某些情况下，它工作得很好，并过滤不允许的域，请参阅日志：

调试:对‘www.clubsoundz.fm’的非现场请求进行了过滤：http://www.clubsoundz.fm/>

我使用sgmllink提取器来跟踪链接，这是我的“规则”：

规则=(规则(SgmlLinkExtractor()，callback='get_domain_data'，follow=True)，)

有人能帮上忙吗？

发布于 2014-12-27 22:37:00

我想这正是我的问题所在：https://github.com/scrapy/scrapy/issues/184听起来似乎没有真正的解决方案：

我想我必须先过滤掉urls，然后爬虫才能继续这个过程

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27668053

复制

相似问题

问Scrapy忽略allowed_domains？EN