首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用Python读取页面并使用minidom.parse或minidom.parseString解析它?

用Python读取页面并使用minidom.parse或minidom.parseString解析它?
EN

Stack Overflow用户
提问于 2014-07-31 23:51:58
回答 1查看 1.3K关注 0票数 2

我有以下任何一种密码:

代码语言:javascript
复制
import urllib
from xml.dom import minidom
res = urllib.urlopen('https://www.google.com/webhp#q=apple&start=10')
dom = minidom.parse(res)

这给了我错误的xml.parsers.expat.ExpatError: syntax error: line 1, column 0

或者这个:

代码语言:javascript
复制
import urllib
from xml.dom import minidom
res = urllib.urlopen('https://www.google.com/webhp#q=apple&start=10')
dom = minidom.parseString(res.read())

这也给了我同样的错误。res.read()读起来很好,是一个字符串。

我想稍后解析代码。我如何使用xml.dom.minidom来完成这个任务?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-07-31 23:55:55

您获得此错误的原因是该页面不是有效的XML。它是HTML5,顶部的doctype告诉您这一点,即使您忽略了内容类型。不能用XML解析器解析HTML。

如果您想继续使用stdlib中的内容,可以使用html.parser (Python3.x)/ HTMLParser (2.x).**,但是,您可能需要考虑第三方库,比如lxml (尽管名称可以解析HTML)、html5libBeautifulSoup (它在一个非常好的接口中封装了一个较低级别的解析器)。

*除非是XHTML,或者HTML5的XML输出,但是这里不是这样的。

**除非您使用的是htmllib的旧版本而没有工作的HTMLParser,否则不要使用HTMLParser。这个模块被废弃是有原因的。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25070790

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档