问用Python读取页面并使用minidom.parse或minidom.parseString解析它？
EN

Stack Overflow用户

提问于 2014-07-31 23:51:58

回答 1查看 1.3K关注 0票数 2

我有以下任何一种密码：

import urllib
from xml.dom import minidom
res = urllib.urlopen('https://www.google.com/webhp#q=apple&start=10')
dom = minidom.parse(res)

这给了我错误的xml.parsers.expat.ExpatError: syntax error: line 1, column 0

或者这个：

import urllib
from xml.dom import minidom
res = urllib.urlopen('https://www.google.com/webhp#q=apple&start=10')
dom = minidom.parseString(res.read())

这也给了我同样的错误。res.read()读起来很好，是一个字符串。

我想稍后解析代码。我如何使用xml.dom.minidom来完成这个任务？

python

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-07-31 23:55:55

您获得此错误的原因是该页面不是有效的XML。它是HTML5，顶部的doctype告诉您这一点，即使您忽略了内容类型。不能用XML解析器解析HTML。

如果您想继续使用stdlib中的内容，可以使用html.parser (Python3.x)/ HTMLParser (2.x).**，但是，您可能需要考虑第三方库，比如lxml (尽管名称可以解析HTML)、html5lib或BeautifulSoup (它在一个非常好的接口中封装了一个较低级别的解析器)。

*除非是XHTML，或者HTML5的XML输出，但是这里不是这样的。

**除非您使用的是htmllib的旧版本而没有工作的HTMLParser，否则不要使用HTMLParser。这个模块被废弃是有原因的。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25070790

复制

相似问题

问用Python读取页面并使用minidom.parse或minidom.parseString解析它？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Python读取页面并使用minidom.parse或minidom.parseString解析它？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Python读取页面并使用minidom.parse或minidom.parseString解析它？
EN