问如何限制Scrapy爬虫的链接级别？
EN

Stack Overflow用户

提问于 2021-02-28 06:00:55

回答 1查看 52关注 0票数 1

对于此示例代码：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)

如果我最多只能访问3级链接，该如何限制？不是访问的链接总数，而是相对于初始链接的链接级别。

scrapy

回答 1

Stack Overflow用户

发布于 2021-06-06 03:06:27

你可以在你的爬虫中使用DEPTH_LIMIT setting来限制爬行的深度：

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]
    custom_settins = {
        `DEPTH_LIMIT`:3
    }
    ...

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66403848

复制

相似问题

问如何限制Scrapy爬虫的链接级别？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何限制Scrapy爬虫的链接级别？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何限制Scrapy爬虫的链接级别？
EN