当您在字典搜索框中引入一些缩略词时,我正在尝试刮取javascript函数生成的结果。这是我使用的代码:
import scrapy
from scrapy_splash import SplashFormRequest
class SedomSpider(scrapy.Spider):
name = 'sedom-spider'
url_s = 'https://www.sedom.es/diccionario/'
formdata = {'sigla': 'AA'}
def parse(self, response):
return SplashFormRequest(
url=self.url_s,
formdata=self.formdata,
callback=self.after_login
)
def after_login(self, response):
print(response.body)我获得了html主体,但是我应该看到的生成结果(<span id="resultado">...</span>)不在其中.
我也试过:
import scrapy
from scrapy_splash import SplashRequest, SplashFormRequest
class SedomSpider(scrapy.Spider):
name = 'sedom-spider'
url_s = 'https://www.sedom.es/diccionario/'
formdata = {'sigla': 'AA'}
def start_requests(self):
yield SplashRequest(
url=self.url_s,
callback=self.parse
)
def parse(self, response):
yield SplashFormRequest.from_response(
response,
formdata=self.formdata,
callback=self.after_login
)
def after_login(self, response):
print(response.body)但是我得到了这个错误:
ValueError: request中缺少的方案: javascript:procesar()
我知道splash配置得很好,因为我做了这个教程并且工作得很好。我可能有一个误解使用这个库,因为我已经尝试了我找到的每一个解决方案,我无法使它工作.
发布于 2021-05-13 07:19:28
我终于找到解决办法了。我把它贴在这里,以防对某人有用。
import scrapy
from scrapy_splash import SplashFormRequest
class SedomSpider(scrapy.Spider):
name = 'sedom-spider'
start_urls = ['https://www.sedom.es/diccionario/',]
formdata = {'sigla': 'AA'}
def parse(self, response):
yield SplashFormRequest.from_response(
response,
url='https://www.sedom.es/diccionario/procesarBusquedaSigla.php',
formdata=self.formdata,
callback=self.parse_details,
args={'wait': 5}
)
def parse_details(self, response):
print(response.body)主要问题是我没有在SplashFormRequest.from_response()中使用正确的url。
https://stackoverflow.com/questions/67489903
复制相似问题