我使用pugixml的xpath函数来查找html文档中的某些节点(通过curl下载)。
我正在使用:
pugi::xml_document doc;
doc.load_buffer(htmlcontent.c_str(), htmlcontent.size());
pugi::xpath_node example= doc.select_single_node("//h2[@class='tv_header']");
std::cout << example.node();返回0节点。我知道文档中存在这个节点。我只将该节点放入一个字符串中,它成功地找到了该节点。为什么在文档中找不到节点?html文档的编码有什么问题吗?
谢谢!
发布于 2013-12-14 05:33:43
文档的解析很可能会在遇到节点之前停止。
HTML文档通常不能被XML解析器解析;除非您的文档是有效的XHTML文档,否则您需要使用HTML解析器。
要验证这一点,只需查看load_buffer返回的结果对象,即
pugi::xml_parse_result res = doc.load_buffer(htmlcontent.c_str(), htmlcontent.size());
std::cout << "Parsing result: " << res.description() << std::endl;
if (!res) std::cout << "Parsing stopped at offset " << res.offset << std::endl;https://stackoverflow.com/questions/20570323
复制相似问题