首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >刮擦javascript生成的结果- scrapy-splash

刮擦javascript生成的结果- scrapy-splash
EN

Stack Overflow用户
提问于 2021-05-11 15:31:52
回答 1查看 72关注 0票数 0

当您在字典搜索框中引入一些缩略词时,我正在尝试刮取javascript函数生成的结果。这是我使用的代码:

代码语言:javascript
复制
import scrapy
from scrapy_splash import SplashFormRequest


class SedomSpider(scrapy.Spider):
    name = 'sedom-spider'
    url_s = 'https://www.sedom.es/diccionario/'

    formdata = {'sigla': 'AA'}

    def parse(self, response):
        return SplashFormRequest(
        url=self.url_s,
        formdata=self.formdata,
        callback=self.after_login
    )

    def after_login(self, response):
        print(response.body)

我获得了html主体,但是我应该看到的生成结果(<span id="resultado">...</span>)不在其中.

我也试过:

代码语言:javascript
复制
import scrapy
from scrapy_splash import SplashRequest, SplashFormRequest


class SedomSpider(scrapy.Spider):
    name = 'sedom-spider'
    url_s = 'https://www.sedom.es/diccionario/'

    formdata = {'sigla': 'AA'}

    def start_requests(self):
        yield SplashRequest(
            url=self.url_s,
            callback=self.parse
        )

    def parse(self, response):
        yield SplashFormRequest.from_response(
            response,
            formdata=self.formdata,
            callback=self.after_login
        )

    def after_login(self, response):
           print(response.body)

但是我得到了这个错误:

ValueError: request中缺少的方案: javascript:procesar()

我知道splash配置得很好,因为我做了这个教程并且工作得很好。我可能有一个误解使用这个库,因为我已经尝试了我找到的每一个解决方案,我无法使它工作.

EN

回答 1

Stack Overflow用户

发布于 2021-05-13 07:19:28

我终于找到解决办法了。我把它贴在这里,以防对某人有用。

代码语言:javascript
复制
import scrapy
from scrapy_splash import SplashFormRequest


class SedomSpider(scrapy.Spider):
    name = 'sedom-spider'
    start_urls = ['https://www.sedom.es/diccionario/',]

    formdata = {'sigla': 'AA'}

    def parse(self, response):
        yield SplashFormRequest.from_response(
            response,
            url='https://www.sedom.es/diccionario/procesarBusquedaSigla.php',
            formdata=self.formdata,
            callback=self.parse_details,
            args={'wait': 5}
        )

    def parse_details(self, response):
        print(response.body)

主要问题是我没有在SplashFormRequest.from_response()中使用正确的url。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67489903

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档