文章/答案/技术大牛

发布

社区首页 >问答首页 >如何存储用Scrapy抓取的URL？

问如何存储用Scrapy抓取的URL？
EN

Stack Overflow用户

提问于 2013-02-27 15:00:56

回答 1查看 1.9K关注 0票数 4

我有一个网络爬虫，抓取新闻故事在网页上。

我知道如何使用XpathSelector从页面中的元素中抓取某些信息。

但是，我似乎不知道如何存储刚刚爬行的页面的URL。

class spidey(CrawlSpider):
    name = 'spidey'
    start_urls = ['http://nytimes.com'] # urls from which the spider will start crawling
    rules = [Rule(SgmlLinkExtractor(allow=[r'page/\d+']), follow=True), 
        # r'page/\d+' : regular expression for http://nytimes.com/page/X URLs
        Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\w+']), callback='parse_articles')]
        # r'\d{4}/\d{2}/\w+' : regular expression for http://nytimes.com/YYYY/MM/title URLs

我想存储通过这些规则的每个链接。

我需要向parse_articles添加什么才能将链接存储在我的项目中？

def parse_articles(self, response):
    item = SpideyItem()
    item['link'] = ???
    return item

python

scrapy

web-crawler

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-02-27 15:05:16

response.url就是你要找的东西。

参见docs on response object和查看this simple example。

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15106029

复制

相似问题

问如何存储用Scrapy抓取的URL？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何存储用Scrapy抓取的URL？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何存储用Scrapy抓取的URL？
EN