我想解析网站的meta标签。为此,我使用xerces-c。
shared_ptr<SAX2XMLReader> parser(XMLReaderFactory::createXMLReader());
//Create and set callback handler with the given callback functions
Handler handler(startElement,endElement,characters);
parser->setContentHandler(&handler);
parser->setErrorHandler(&handler);
//Parse the file with the given callback handler
parser->parse(filename.c_str());一些网站现在有javascript了。在脚本标记内部,javascript使用操作符&&进行逻辑and。
Xerces-C将其解释为实体引用(例如,)并抛出异常,因为它不知道实体引用。
有没有一种方法可以正确地把它读成文本?
或者如果没有-有没有方法可以忽略脚本标记中的所有字符?不管怎样,我不需要他们。我只想解析meta标签。
发布于 2011-12-17 19:22:34
基本上,html不一定是格式良好的xml,但是,例如,您可以在提供给xml解析器之前使用tidy对其进行预处理。
https://stackoverflow.com/questions/8544344
复制相似问题