在html5lib教程的第一步中,我看到了相当混乱的行为。
文档告诉我们:
import html5lib
f = open("mydocument.html")
doc = html5lib.parse(f)这将以自定义的"simpletree“格式返回树。
作为文件,我有一个普通的html文档。但就我而言,这是:
<None>
>>> doc is None
False我相信这是不好的,但我不知道会发生什么。
编辑
如果在打开的文件上调用read方法,则返回文件为string:
f = open("mydocument.html")
f.read()
# returns string with html在doc = html5lib.parse(f)之后,f.read()返回空字符串,就像已经读取的文件一样。
发布于 2012-04-30 07:28:11
<None>并不意味着您的文档没有被解析,它只是意味着您的文档没有名称。如果你这样做了
doc.name =“测试”打印(Doc)
它应该显示<test>parse也可以使用字符串作为参数,在这种情况下,它将为您加载文件,无需自己打开它。print(doc.toxml())https://stackoverflow.com/questions/10379524
复制相似问题