首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何限制Scrapy爬虫的链接级别?

如何限制Scrapy爬虫的链接级别?
EN

Stack Overflow用户
提问于 2021-02-28 06:00:55
回答 1查看 52关注 0票数 1

对于此示例代码:

代码语言:javascript
复制
import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)

如果我最多只能访问3级链接,该如何限制?不是访问的链接总数,而是相对于初始链接的链接级别。

EN

回答 1

Stack Overflow用户

发布于 2021-06-06 03:06:27

你可以在你的爬虫中使用DEPTH_LIMIT setting来限制爬行的深度:

代码语言:javascript
复制
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]
    custom_settins = {
        `DEPTH_LIMIT`:3
    }
    ...
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66403848

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档