我在python中使用lxml创建了以下xpath语法
htmlPage.xpath("/html/body//a/text()")它让我在我想要的特定html范围内获得所有的<a>-tags。现在,我遇到了<a>-tags可能如下所示:
<a>This is a sentence with some <italic>italic text</italic>-formatting I want to parse.</a>xpath返回的列表比我预期的多了一个元素。我检查了一下,发现它将上面提到的<a>-tag拆分为两个列表元素,而不是一个。而不是字符串
"This is a sentence with some italic text-formatting I want to parse."我得到了两个字符串
"This is a sentence with some" # and
"-formatting I want to parse."有没有办法纠正这一点?
发布于 2011-05-30 19:16:16
我通过首先获取所有<a>-tags解决了我的问题
results = htmlPage.xpath("/html/body//a")然后迭代返回的列表并对列表元素使用text_content()
for a_tag in results:
print a_tag.text_content() # prints bthe whol string: "This is a sentence with some italic text-formatting I want to parse."https://stackoverflow.com/questions/6175049
复制相似问题