我正在调整下面的代码(通过这个问题中的通知创建),它使用了一个XML文件,它是DTD,并将它们转换成不同的格式。对于这个问题,只有加载部分是重要的:
xmldoc = open(filename)
parser = etree.XMLParser(dtd_validation=True, load_dtd=True)
tree = etree.parse(xmldoc, parser)在使用文件系统时,这很好,但我正在将其转换为通过web框架运行,其中两个文件是通过表单加载的。
加载xml文件工作得很好:
tree = etree.parse(StringIO(data['xml_file']) 但是,当DTD链接到xml文件的顶部时,以下语句将失败:
parser = etree.XMLParser(dtd_validation=True, load_dtd=True)
tree = etree.parse(StringIO(data['xml_file'], parser)通过这个问题,我尝试了:
etree.DTD(StringIO(data['dtd_file'])
tree = etree.parse(StringIO(data['xml_file'])虽然第一行不会导致错误,但第二行落在了DTD要提取的unicode实体上(在文件系统版本中是这样做的):
XMLSyntaxError:实体“eacute”未定义,第4495行,第46列
如何正确加载此DTD?
发布于 2010-11-16 04:07:58
这里有一个简短但完整的例子,使用自定义解析器技术@Steven提到的。
from StringIO import StringIO
from lxml import etree
data = dict(
xml_file = '''<?xml version="1.0"?>
<!DOCTYPE x SYSTEM "a.dtd">
<x><y>ézz</y></x>
''',
dtd_file = '''<!ENTITY eacute "é">
<!ELEMENT x (y)>
<!ELEMENT y (#PCDATA)>
''')
class DTDResolver(etree.Resolver):
def resolve(self, url, id, context):
return self.resolve_string(data['dtd_file'], context)
xmldoc = StringIO(data['xml_file'])
parser = etree.XMLParser(dtd_validation=True, load_dtd=True)
parser.resolvers.add(DTDResolver())
try:
tree = etree.parse(xmldoc, parser)
except etree.XMLSyntaxError as e:
# handle xml and validation errors发布于 2010-09-29 08:39:24
您可能需要一个自定义解析器。文档实际上给出了这样做以提供dtd的示例。
https://stackoverflow.com/questions/3817137
复制相似问题