首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >抓取urls的抓取顺序

抓取urls的抓取顺序
EN

Stack Overflow用户
提问于 2018-04-18 17:29:25
回答 3查看 71关注 0票数 0

我有个关于scrapy和python的问题。我有几个链接。我使用循环在一个脚本中抓取每个脚本中的数据。但抓取数据的顺序是随机的,或者至少与链接不匹配。

所以我不能将每个子页面的url与输出的数据进行匹配。

喜欢:抓取的网址,data1,data2,data3。Data 1,data2,data3 =>这是可以的,因为它来自一个循环,但是我如何添加到循环的当前url,或者我可以设置链接列表的顺序?就像列表中的第一个被抓取为第一个,第二个被抓取为第二个...

EN

回答 3

Stack Overflow用户

发布于 2018-04-18 18:16:54

代码语言:javascript
复制
# -*- coding: utf-8 -*-
import scrapy


class sth(scrapy.Spider):
    name = 'sth'
    allowed_domain = ['example.com']
    start_urls = [ 
         'https://www.example.com/url1/',
         'https://www.example.com/url2/',
         'https://www.example.com/url3/',
    ]

def parse(self, response):
          for content in response.css('div#content'):
               yield {
                    'data1': content.css('li#name2::text').extract(),
                    'data2': content.css('li#name1::text').extract(),
    }
票数 0
EN

Stack Overflow用户

发布于 2018-04-18 19:14:39

time.sleep() -这是一个解决方案吗?

票数 0
EN

Stack Overflow用户

发布于 2018-04-18 19:59:50

好的,看起来解决方案在settings.py文件中。

DOWNLOAD_DELAY =3

请求之间。

它应该是未注释的。默认情况下,它是注释的。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49896079

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档