Scrapy忽略了我的爬虫规则,甚至遵循了不允许的域名。
self.start_urls = [ 'http://www.domain.de' ]
self.allowed_domains = [ 'domain.de' ]但在某些情况下,它工作得很好,并过滤不允许的域,请参阅日志:
调试:对‘www.clubsoundz.fm’的非现场请求进行了过滤:http://www.clubsoundz.fm/>
我使用sgmllink提取器来跟踪链接,这是我的“规则”:
规则=(规则(SgmlLinkExtractor(),callback='get_domain_data',follow=True),)
有人能帮上忙吗?
发布于 2014-12-27 22:37:00
我想这正是我的问题所在:https://github.com/scrapy/scrapy/issues/184听起来似乎没有真正的解决方案:
我想我必须先过滤掉urls,然后爬虫才能继续这个过程
https://stackoverflow.com/questions/27668053
复制相似问题