文章/答案/技术大牛

发布

社区首页 >问答首页 >Scrapy爬虫没有跟随链接来获取新页面

问Scrapy爬虫没有跟随链接来获取新页面
EN

Stack Overflow用户

提问于 2019-02-25 21:48:16

回答 2查看 916关注 0票数 2

我正在从一个使用Javascript链接到新页面的页面获取数据。我正在使用Scrapy + splash来获取这些数据，然而，由于某些原因，这些链接没有被遵循。

下面是我的爬行器的代码：

import scrapy
from   scrapy_splash import SplashRequest       

script = """
    function main(splash, args)
        local javascript = args.javascript
        assert(splash:runjs(javascript))
        splash:wait(0.5)

        return {
               html = splash:html()
        }
    end
"""


page_url = "https://www.londonstockexchange.com/exchange/prices-and-markets/stocks/exchange-insight/trade-data.html?page=0&pageOffBook=0&fourWayKey=GB00B6774699GBGBXAMSM&formName=frmRow&upToRow=-1"


class MySpider(scrapy.Spider):
    name = "foo_crawler"          
    download_delay = 5.0

    custom_settings = {
                'DOWNLOADER_MIDDLEWARES' : {
                            'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
                            'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware': 400,
                            'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
                            },
                 #'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter'
                }




    def start_requests(self):
        yield SplashRequest(url=page_url, 
                                callback=self.parse
                            )



    # Parses first page of ticker, and processes all maturities
    def parse(self, response):
        try:
            self.extract_data_from_page(response)

            href = response.xpath('//div[@class="paging"]/p/a[contains(text(),"Next")]/@href')
            print("href: {0}".format(href))

            if href:
                javascript = href.extract_first().split(':')[1].strip()

                yield SplashRequest(response.url, self.parse, 
                                    cookies={'store_language':'en'},
                                    endpoint='execute', 
                                    args = {'lua_source': script, 'javascript': javascript })

        except Exception as err:
            print("The following error occured: {0}".format(err))



    def extract_data_from_page(self, response):
        url = response.url
        page_num = url.split('page=')[1].split('&')[0]
        print("extract_data_from_page() called on page: {0}.".format(url))
        filename = "page_{0}.html".format(page_num)
        with open(filename, 'w') as f:
            f.write(response.text)




    def handle_error(self, failure):
        print("Error: {0}".format(failure))

只获取第一个页面，我无法通过点击页面底部的链接来获取后续页面。

我如何解决这个问题，这样我就可以点击页面底部给出的页面了？

scrapy

scrapy-splash

splash-js-render

python

回答 2

Stack Overflow用户

发布于 2019-02-26 18:31:28

您的代码看起来很好，唯一的问题是因为生成的请求具有相同的url，所以它们会被重复过滤器忽略。只需取消对DUPEFILTER_CLASS的注释，然后重试。

custom_settings = {
    ...
    'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter',
}

编辑:要在不运行javascript的情况下浏览数据页，可以执行以下操作：

page_url = "https://www.londonstockexchange.com/exchange/prices-and-markets/stocks/exchange-insight/trade-data.html?page=%s&pageOffBook=0&fourWayKey=GB00B6774699GBGBXAMSM&formName=frmRow&upToRow=-1"

page_number_regex = re.compile(r"'frmRow',(\d+),")
...
def start_requests(self):
    yield SplashRequest(url=page_url % 0,
                        callback=self.parse)
...
if href:
    javascript = href.extract_first().split(':')[1].strip()
    matched = re.search(self.page_number_regex, javascript)
    if matched:
        yield SplashRequest(page_url % matched.group(1), self.parse,
                            cookies={'store_language': 'en'},
                            endpoint='execute',
                            args={'lua_source': script, 'javascript': javascript})

我期待着一个使用javascript的解决方案。

票数 1

Stack Overflow用户

发布于 2019-03-10 11:21:49

您可以使用page查询字符串变量。它从0开始，所以第一页是page=0。您可以通过查看以下内容来查看总页面：

<div class="paging">
  <p class="floatsx">&nbsp;Page 1 of 157 </p>
</div>

这样你就知道该调用0-156页了。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54867680

复制

相似问题

问Scrapy爬虫没有跟随链接来获取新页面
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scrapy爬虫没有跟随链接来获取新页面EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scrapy爬虫没有跟随链接来获取新页面
EN