文章/答案/技术大牛

发布

社区首页 >问答首页 >刮伤的DEPTH_PRIORITY不起作用

问刮伤的DEPTH_PRIORITY不起作用
EN

Stack Overflow用户

提问于 2016-03-17 14:52:49

回答 1查看 821关注 0票数 1

我想我的蜘蛛爬虫的start_urls网站完全之前跟踪更深入的网站。

爬虫的目标是找到过期的域。

举个例子，我创建了一个包含500个url (450个过期和50个actif网站)的页面，爬虫必须在后面的每个url中插入一个url。

实际上，爬虫跟随第一个网站活着，停止爬行start_urls网站。

这是我的配置:

self.custom_settings = {
    'RETRY_ENABLED': False,
    'DEPTH_LIMIT' : 0,
    'DEPTH_PRIORITY' : 1,
    'CONCURRENT_REQUESTS_PER_DOMAIN' : 64,
    'CONCURRENT_REQUESTS' : 128,
    'REACTOR_THREADPOOL_MAXSIZE' : 30,
}

设置:

SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'
LOG_LEVEL = 'INFO'
DUPEFILTER_CLASS = 'dirbot.custom_filters.BLOOMDupeFilter'

Crawler :

rules = (
    Rule(LxmlLinkExtractor(allow=('.com', '.fr', '.net', '.org', '.info', '.casino', '.co'),
        deny=('facebook', 'amazon', 'wordpress', 'blogspot', 'free')),
        callback='parse_obj',
        process_request='add_errback',
        follow=True),
)

def add_errback(self, request):
    return request.replace(errback=self.errback_httpbin)

def errback_httpbin(self, failure):
    if failure.check(DNSLookupError):
        request = failure.request
        ext = tldextract.extract(request.url)
        domain = ext.registered_domain
        if domain != '' :
            self.checkDomain(domain)

web-scraping

scrapy

scrapyd

python

回答 1

Stack Overflow用户

发布于 2016-03-17 15:19:40

需要将custom_settings定义为类属性，以替换settings.py上的实际设置。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36064103

复制

相似问题

问刮伤的DEPTH_PRIORITY不起作用
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问刮伤的DEPTH_PRIORITY不起作用EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问刮伤的DEPTH_PRIORITY不起作用
EN