文章/答案/技术大牛

发布

社区首页 >问答首页 >Scrapy -如何跟踪起始url

问Scrapy -如何跟踪起始url
EN

Stack Overflow用户

提问于 2016-09-19 19:56:23

回答 1查看 481关注 0票数 1

给定一个起始url池，我希望在parse_item()函数中标识原始url。

就我而言，抓取蜘蛛开始从初始的起始urls池中爬行，但在解析时，没有跟踪这些urls中的哪一个是初始urls。如何才能跟踪起点？

python

scrapy

web-crawler

回答 1

Stack Overflow用户

发布于 2016-09-19 22:25:46

如果您需要在爬行器中使用解析url，只需使用response.url：

def parse_item(self, response):
    print response.url

但是如果你在爬虫之外需要它，我可以想到以下几种方法：

使用scrapy core api

You的

也可以使用操作系统命令从外部python模块调用scrapy core api
You(显然不推荐这样做)：

在scrapycaller.py中

from subprocess import call
urls = 'url1,url2'
cmd = 'scrapy crawl myspider -a myurls={}'.format(urls)
call(cmd, shell=True)

在myspider内部：

class mySpider(scrapy.Spider):
    def __init__(self, myurls=''):              
        self.start_urls = myurls.split(",")

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39572599

复制

相似问题

问Scrapy -如何跟踪起始url
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scrapy -如何跟踪起始urlEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scrapy -如何跟踪起始url
EN