文章/答案/技术大牛

发布

社区首页 >问答首页 >刮擦javascript生成的结果- scrapy-splash

问刮擦javascript生成的结果- scrapy-splash
EN

Stack Overflow用户

提问于 2021-05-11 15:31:52

回答 1查看 72关注 0票数 0

当您在字典搜索框中引入一些缩略词时，我正在尝试刮取javascript函数生成的结果。这是我使用的代码：

import scrapy
from scrapy_splash import SplashFormRequest


class SedomSpider(scrapy.Spider):
    name = 'sedom-spider'
    url_s = 'https://www.sedom.es/diccionario/'

    formdata = {'sigla': 'AA'}

    def parse(self, response):
        return SplashFormRequest(
        url=self.url_s,
        formdata=self.formdata,
        callback=self.after_login
    )

    def after_login(self, response):
        print(response.body)

我获得了html主体，但是我应该看到的生成结果(<span id="resultado">...</span>)不在其中.

我也试过：

import scrapy
from scrapy_splash import SplashRequest, SplashFormRequest


class SedomSpider(scrapy.Spider):
    name = 'sedom-spider'
    url_s = 'https://www.sedom.es/diccionario/'

    formdata = {'sigla': 'AA'}

    def start_requests(self):
        yield SplashRequest(
            url=self.url_s,
            callback=self.parse
        )

    def parse(self, response):
        yield SplashFormRequest.from_response(
            response,
            formdata=self.formdata,
            callback=self.after_login
        )

    def after_login(self, response):
           print(response.body)

但是我得到了这个错误：

ValueError: request中缺少的方案: javascript:procesar()

我知道splash配置得很好，因为我做了这个教程并且工作得很好。我可能有一个误解使用这个库，因为我已经尝试了我找到的每一个解决方案，我无法使它工作.

python

web-scraping

scrapy

scrapy-splash

回答 1

Stack Overflow用户

发布于 2021-05-13 07:19:28

我终于找到解决办法了。我把它贴在这里，以防对某人有用。

import scrapy
from scrapy_splash import SplashFormRequest


class SedomSpider(scrapy.Spider):
    name = 'sedom-spider'
    start_urls = ['https://www.sedom.es/diccionario/',]

    formdata = {'sigla': 'AA'}

    def parse(self, response):
        yield SplashFormRequest.from_response(
            response,
            url='https://www.sedom.es/diccionario/procesarBusquedaSigla.php',
            formdata=self.formdata,
            callback=self.parse_details,
            args={'wait': 5}
        )

    def parse_details(self, response):
        print(response.body)

主要问题是我没有在SplashFormRequest.from_response()中使用正确的url。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67489903

复制

相似问题

问刮擦javascript生成的结果- scrapy-splash
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问刮擦javascript生成的结果- scrapy-splashEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问刮擦javascript生成的结果- scrapy-splash
EN