我有以下任何一种密码:
import urllib
from xml.dom import minidom
res = urllib.urlopen('https://www.google.com/webhp#q=apple&start=10')
dom = minidom.parse(res)这给了我错误的xml.parsers.expat.ExpatError: syntax error: line 1, column 0
或者这个:
import urllib
from xml.dom import minidom
res = urllib.urlopen('https://www.google.com/webhp#q=apple&start=10')
dom = minidom.parseString(res.read())这也给了我同样的错误。res.read()读起来很好,是一个字符串。
我想稍后解析代码。我如何使用xml.dom.minidom来完成这个任务?
发布于 2014-07-31 23:55:55
您获得此错误的原因是该页面不是有效的XML。它是HTML5,顶部的doctype告诉您这一点,即使您忽略了内容类型。不能用XML解析器解析HTML。
如果您想继续使用stdlib中的内容,可以使用html.parser (Python3.x)/ HTMLParser (2.x).**,但是,您可能需要考虑第三方库,比如lxml (尽管名称可以解析HTML)、html5lib或BeautifulSoup (它在一个非常好的接口中封装了一个较低级别的解析器)。
*除非是XHTML,或者HTML5的XML输出,但是这里不是这样的。
**除非您使用的是htmllib的旧版本而没有工作的HTMLParser,否则不要使用HTMLParser。这个模块被废弃是有原因的。
https://stackoverflow.com/questions/25070790
复制相似问题