我正在用scrapy抓取一个网站,抓取后我得到了一个错误的值。
我很确定我这样做是正确的,然而,当我应该得到一个值,比如说59,也许我得到的是89,而在网站上的任何地方都没有89。
据我所知,这可能是网站上防止刮擦的一种措施?有什么方法可以绕过这个吗?
编辑:
我正在尝试抓取This website,我遇到的问题是价格。例如,在第一个服务器(L4i)中,价格应该是39 (不含小数),但是,我每次尝试都会得到59。
编辑2:
每台服务器上的价格都会发生这种情况。我总是得到一个与它显示的值不同的值。
编辑3:
基于@rongon的答案,这是我所有的代码,但仍然得到了错误的值:
import scrapy
class OneAndOneServers(scrapy.Spider):
name = "servers"
start_urls = ['https://www.1and1.com/dedicated-server']
def parse(self, response):
price = response.xpath('//div[@data-price-article="tariff-ded-server-l-4i"]//span[@class="price-before-separator"]/text()').extract()
yield {'price': price}编辑4:
我真的很傻。我是认真的。尽管我试图删除.co.uk网站,但在脚本中我调用的是.com网站。结案后,我的大脑放出了很大的臭气,我也有点盲目。
发布于 2018-08-08 22:31:02
问题很可能出在您的xpath/css-extract命令中。
使用以下XPath,我可以毫无问题地提取L4i的价格:
response.xpath('//div[@data-price-article="tariff-ded-server-l-4i"]//span[@class="price-before-separator"]/text()').extract()如果你愿意发布你的代码,我们可能会帮你更多。
https://stackoverflow.com/questions/51744075
复制相似问题