文章/答案/技术大牛

发布

社区首页 >问答首页 >：如果没有Xpath，跳过Xpath

问：如果没有Xpath，跳过Xpath
EN

Stack Overflow用户

提问于 2016-10-19 11:29:08

回答 2查看 840关注 0票数 0

我有这个代码，它为我刮了几百页。但是，有时a的xpath根本不存在，我如何才能编辑它，这样脚本就不会停止运行，继续运行以获得b，并为特定的页面提供这些信息？

`a = response.xpath("//div[@class='headerDiv']/a/@title").extract()[0]
b = response.xpath("//div[@class='headerDiv']/text()").extract()[0].strip()
items['title'] = a + " " + b
yield items`

python

xpath

scrapy

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-10-19 11:43:31

只需检查extract()的结果即可。

nodes = response.xpath("//div[@class='headerDiv']/a/@title").extract()
a = nodes[0] if nodes else ""

nodes = response.xpath("//div[@class='headerDiv']/text()").extract()
b = nodes[0].strip() if nodes else ""

items['title'] = a + " " + b
yield items

在Padraic Cunningham的忠告下：

a = response.xpath("//div[@class='headerDiv']/a/@title").extract_first(default='')
b = response.xpath("//div[@class='headerDiv']/text()").extract_first(default ='').strip() 
items['title'] = (a + " " + b).strip()
yield items

票数 1

Stack Overflow用户

发布于 2016-10-19 12:06:00

您可以如下所示：

import lxml.etree as etree

parser = etree.XMLParser(strip_cdata=False, remove_comments=True)
root = etree.fromstring(data, parser)

#Take Hyperlink as per xpath:
#But Xpath returns list of element so we have to take 0 index of it if it has element

a = root.xpath("//div[@class='headerDiv']/a/@title")
b = response.xpath("//div[@class='headerDiv']/text()")

if a:
    items['title'] = a[0].strip() + " " + b[0].strip() 
else:
    items['title'] = b[0].strip() 

yield items

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40130194

复制

相似问题

问：如果没有Xpath，跳过Xpath
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问：如果没有Xpath，跳过XpathEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问：如果没有Xpath，跳过Xpath
EN