首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Scrapy忽略allowed_domains?

Scrapy忽略allowed_domains?
EN

Stack Overflow用户
提问于 2014-12-27 22:13:50
回答 1查看 1.5K关注 0票数 3

Scrapy忽略了我的爬虫规则,甚至遵循了不允许的域名。

代码语言:javascript
复制
self.start_urls = [ 'http://www.domain.de' ]
self.allowed_domains = [ 'domain.de' ]

但在某些情况下,它工作得很好,并过滤不允许的域,请参阅日志:

调试:对‘www.clubsoundz.fm’的非现场请求进行了过滤:http://www.clubsoundz.fm/>

我使用sgmllink提取器来跟踪链接,这是我的“规则”:

规则=(规则(SgmlLinkExtractor(),callback='get_domain_data',follow=True),)

有人能帮上忙吗?

EN

回答 1

Stack Overflow用户

发布于 2014-12-27 22:37:00

我想这正是我的问题所在:https://github.com/scrapy/scrapy/issues/184听起来似乎没有真正的解决方案:

我想我必须先过滤掉urls,然后爬虫才能继续这个过程

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27668053

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档