文章/答案/技术大牛

发布

社区首页 >问答首页 >CrawlSpider不遵循链接

问CrawlSpider不遵循链接
EN

Stack Overflow用户

提问于 2015-10-09 19:20:58

回答 1查看 155关注 0票数 1

Title说，我正试图使一个CrawlSpider在亚马逊的一些产品工作，但没有任何效果。

这里是我想要获得产品的原始网址页。

查看下一个链接所在的HTML代码，如下所示：

<a title="Next Page" id="pagnNextLink" class="pagnNext" href="/s/ref=sr_pg_2?me=A1COIXT69Y8KR&amp;rh=i%3Amerchant-items&amp;page=2&amp;ie=UTF8&amp;qid=1444414650">
    <span id="pagnNextString">Next Page</span>
    <span class="srSprite pagnNextArrow"></span>
</a>

这是我使用的当前reg表达式：

s/ref=sr_pg_[0-9]\?[^">]+

使用像Pythex.org这样的服务，这似乎是可以的，我得到了网址的这一部分：

s/ref=sr_pg_2?me=A1COIXT69Y8KR&amp;rh=i%3Amerchant-items&amp;page=2&amp;ie=UTF8&amp;qid=1444414650

这是我的爬虫代码：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from amazon.items import AmazonProduct


class AmazonCrawlerSpider(CrawlSpider):
    name = 'amazon_crawler'
    allowed_domains = ['amazon.com']
    #allowed_domains = ['stackoverflow.com']
    start_urls = ['http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=1']
    #start_urls = ['http://stackoverflow.com/questions?pagesize=50&sort=newest']
    rules = [
        Rule(LinkExtractor(allow=r's/ref=sr_pg_[0-9]\?[^">]+'),
           callback='parse_item', follow=True)
    ]
    '''rules = [
        Rule(LinkExtractor(allow=r'questions\?page=[0-9]&sort=newest'),
           callback='parse_item', follow=True)
    ]'''


    def parse_item(self, response):
        products = response.xpath('//div[@class="summary"]/h3')
        for product in products:
            item = AmazonProduct()
            print('found it!')
            yield item

由于一些未知的原因，爬虫没有跟踪链接。这段代码是基于RealPython的部落格教程，他们在那里爬行StackOverflow询问问题。实际上，只需取消注释代码，以确保这是可行的。

知道我在这里错过了什么吗？谢谢!

更新：

基于@Rejected的回答，我切换到了shell，正如他指出的那样，我可以看到HTML代码与我在浏览器中看到的不同。

实际上，Scrapy正在获取的代码，有趣的部分是：

<a title="Next Page" id="pagnNextLink" class="pagnNext" href="/s?ie=UTF8&me=A19COJAJDNQSRP&page=2">
    <span id="pagnNextString">Next Page</span>
    <span class="srSprite pagnNextArrow"></span>
</a>

我已经更改了reg表达式，如下所示：

s[^">&]+&me=A19COJAJDNQSRP&page=[0-9]$

现在我得到了shell中的链接：

[Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=1', text='\n    \n        \n            \n            \n            \n            \n    \n    ', fragment='', nofollow=False), Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=2', text='2', fragment='', nofollow=False), Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=3', text='3', fragment='', nofollow=False)]

而且爬行器也是正确的！

web-scraping

scrapy

scrapy-spider

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-10-09 21:57:16

Scrapy提供的HTML数据与您在浏览器中看到的不同(甚至只是请求"view-source:url")。

为什么，我不能百分之百地确定。所需的三(？)链接将匹配r's/ref=sr_pg_[0-9]'在您的允许路径。

因为Amazon正在做一些决定浏览器的事情，所以您也应该测试在Scrapy实例中得到了什么。将其放入shell中，并通过以下方式亲自使用LinkExtractor：

LinkExtractor(allow=r's/ref=sr_pg_[0-9]').extract_links(response)

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33045677

复制

相似问题

问CrawlSpider不遵循链接
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CrawlSpider不遵循链接EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CrawlSpider不遵循链接
EN