首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >奇怪的lxml行为

奇怪的lxml行为
EN

Stack Overflow用户
提问于 2009-10-16 12:22:42
回答 2查看 2.1K关注 0票数 1

考虑以下代码片段:

代码语言:javascript
复制
import lxml.html

html = '<div><br />Hello text</div>'
doc = lxml.html.fromstring(html)
text = doc.xpath('//text()')[0]
print lxml.html.tostring(text.getparent())
#prints <br>Hello text

我期望看到'<div><br />Hello text</div>',因为br不能有嵌套文本,并且是“自封闭的”(我指的是/>)。如何让lxml正确处理它?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2009-10-16 12:55:35

HTML没有自动关闭标签。这是一件xml的事情。

代码语言:javascript
复制
import lxml.etree

html = '<div><br />Hello text</div>'
doc = lxml.etree.fromstring(html)
text = doc.xpath('//text()')[0]
print lxml.etree.tostring(text.getparent())

打印

代码语言:javascript
复制
<br/>Hello text

请注意,文本不在标记内。lxml有一个"tail“的概念。

代码语言:javascript
复制
>>> print text.text
None
>>> print text.tail
Hello text
票数 8
EN

Stack Overflow用户

发布于 2009-10-16 12:59:21

在处理有效的XHTML时,可以使用etree而不是html。

代码语言:javascript
复制
import lxml.etree

html = '<div><br />Hello text</div>'
doc = lxml.etree.fromstring(html)
text = doc.xpath('//text()')[0]
print lxml.etree.tostring(text.getparent())

有趣的是,您通常可以使用以下代码将HTML转换为XHTML:

代码语言:javascript
复制
import lxml.etree
import lxml.html

html = '<div><br>Hello text</div>'
doc = lxml.html.fromstring(html)
text = doc.xpath('//text()')[0]
print lxml.etree.tostring(text.getparent())

输出:"<br/>Hello text"

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1577732

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档