首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >lxml etree解析失败(IOError)

lxml etree解析失败(IOError)
EN

Stack Overflow用户
提问于 2017-06-06 15:20:36
回答 1查看 3K关注 0票数 1

我在试着运行这个程序。直到今天都很好。在我的代码中没有任何改变。

代码语言:javascript
复制
import lxml.etree
import urlparse
import re

def parse_url(url):
    return lxml.etree.parse(url, lxml.etree.HTMLParser())

urlivv = "http://finance.yahoo.com/q?s=IVV"
docivv = parse_url(urlivv)

这是我的错误信息:

IOError: Error reading file 'http://finance.yahoo.com/q?s=IVV': failed to load external entity "http://finance.yahoo.com/q?s=IVV"

站点上有一些关于将StringIO添加到参数中的文档(见下文)。但我觉得很奇怪我以前从没这么做过。

代码语言:javascript
复制
tree = etree.parse(StringIO(myString))

编辑:更完整的堆栈跟踪。

代码语言:javascript
复制
>>> import lxml.etree
>>> tree = lxml.etree.parse('http://finance.yahoo.com/q?s=IVV', parser=lxml.etree.HTMLParser())
Traceback (most recent call last):
  File "<interactive input>", line 1, in <module>
  File "src\lxml\lxml.etree.pyx", line 3427, in lxml.etree.parse (src\lxml\lxml.etree.c:81100)
  File "src\lxml\parser.pxi", line 1811, in lxml.etree._parseDocument (src\lxml\lxml.etree.c:117831)
  File "src\lxml\parser.pxi", line 1837, in lxml.etree._parseDocumentFromURL (src\lxml\lxml.etree.c:118178)
  File "src\lxml\parser.pxi", line 1741, in lxml.etree._parseDocFromFile (src\lxml\lxml.etree.c:117090)
  File "src\lxml\parser.pxi", line 1138, in lxml.etree._BaseParser._parseDocFromFile (src\lxml\lxml.etree.c:111636)
  File "src\lxml\parser.pxi", line 595, in lxml.etree._ParserContext._handleParseResultDoc (src\lxml\lxml.etree.c:105092)
  File "src\lxml\parser.pxi", line 706, in lxml.etree._handleParseResult (src\lxml\lxml.etree.c:106800)
  File "src\lxml\parser.pxi", line 633, in lxml.etree._raiseParseError (src\lxml\lxml.etree.c:105611)
OSError: Error reading file 'http://finance.yahoo.com/q?s=IVV': failed to load external entity "http://finance.yahoo.com/q?s=IVV"
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-06-06 17:15:10

如果你想找一个解释,你现在就可以停止阅读了。另一方面,如果你寻求一种补救,那么这可能就是它。

代码语言:javascript
复制
>>> page = requests.get('http://finance.yahoo.com/q?s=IVV').text
>>> lxml.etree.fromstring(page) #fails
>>> tree = lxml.etree.fromstring(page, parser=lxml.etree.HTMLParser())
>>> tree.xpath('.//table[@class="W(100%)"]')
[<Element table at 0x607dc08>]

简而言之,使用requests作为字符串获取页面,用lxml解析该字符串,然后像往常一样继续。

编辑:在运行此代码之前,您将需要import requestsimport lxml.etree

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44393930

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档