文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从XPath文档(Xerces/Xqilla)中提取具有HTML2的节点

问如何从XPath文档(Xerces/Xqilla)中提取具有HTML2的节点
EN

Stack Overflow用户

提问于 2015-04-21 21:48:38

回答 1查看 521关注 0票数 0

我想使用xerces和xqilla库从带有XPATH2的html文档中提取特定的节点，但是显然我无法构造一个有效的XPATH表达式，否则我的代码就错了。

我现在的代码是：

#include <iostream>
#include <string>

#include <xercesc/dom/DOMImplementation.hpp>
#include <xercesc/dom/DOMImplementationRegistry.hpp>
#include <xercesc/dom/DOMConfiguration.hpp>

#include <xercesc/dom/DOMXPathExpression.hpp>
#include <xercesc/dom/DOMXPathResult.hpp>
#include <xercesc/dom/DOMLSParser.hpp>
#include <xercesc/dom/DOMDocument.hpp>
#include <xercesc/dom/DOMLSSerializer.hpp>
#include <xercesc/dom/DOMLSOutput.hpp>

#include <xercesc/sax/SAXParseException.hpp>
#include <xercesc/sax/ErrorHandler.hpp>

#include <xercesc/framework/StdOutFormatTarget.hpp>
#include <xercesc/framework/MemBufInputSource.hpp>
#include <xercesc/framework/Wrapper4InputSource.hpp>

#include <xercesc/util/XMLString.hpp>

#include <xqilla/xqilla-dom3.hpp>
#include <xercesc/parsers/AbstractDOMParser.hpp>
using namespace std;


const char document[] = { 0x3c, 0x21, 0x44, 0x4f, 0x43, .....,  0x6c, 0x3e, 0x0a, 0x00 };

int main() {

    // init xerces and xqilla engines
    XQillaPlatformUtils::initialize();

    // retrieve xqilla DOMImpl.
    xercesc::DOMImplementation* xqilla_impl
        = xercesc::DOMImplementationRegistry::getDOMImplementation(X("XPath2 3.0"));

    {
        // create DOMLSParser
        AutoRelease<xercesc::DOMLSParser> parser(xqilla_impl->createLSParser(xercesc::DOMImplementationLS::MODE_SYNCHRONOUS, 0));
        xercesc::DOMConfiguration *config = parser->getDomConfig();
        config->setParameter(xercesc::XMLUni::fgXercesScannerName, xercesc::XMLUni::fgWFXMLScanner);

        // retrieve lesson page:
        string str(document);

        xercesc::Wrapper4InputSource* wrapper =
                new xercesc::Wrapper4InputSource(
                new xercesc::MemBufInputSource((XMLByte*) str.c_str(), (XMLSize_t) str.length(), "index.html", false));


        // create DOM structure:
        xercesc::DOMDocument* dom = parser->parse(wrapper);

        AutoRelease<xercesc::DOMXPathExpression> expression(
            dom->createExpression(xercesc::XMLString::transcode("html/head"), 0)
        );

        AutoRelease<xercesc::DOMXPathResult> result(expression->evaluate(
            dom, xercesc::DOMXPathResult::ITERATOR_RESULT_TYPE, 0
        ));

        cout << result->iterateNext() << endl; // output is always 0
    }

    XQillaPlatformUtils::terminate();

    return 0;
}

我要换什么？

编辑：

我想查看的HTML文件是一个大型的文件集合，因此我创建了一个小示例文件来测试我的程序和/或XPATH表达式：

  <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
  <html xmlns="http://www.w3.org/1999/xhtml" >
  <head>
    <title>Some title</title>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
    <meta name="title" content="Some title" />
    <meta name="keywords" content="Keywords" />
    <meta name="description" content="A short description" />
  </head>
  <body>
    <p>
      Lorem ipsum dolor sit amet, consetetur sadipscing elitr,
      sed diam nonumy <b>eirmod <u>tempor</u> invidunt ut</b> labore et dolore<br />
      magna aliquyam erat, sed diam voluptua. At vero eos et accusam
      et justo duo dolores et ea rebum. Stet clita kasd gubergren,<br />
      no sea takimata sanctus est Lorem ipsum dolor sit amet.
    </p>
  </body>
</html>

即使这样，我的程序也找不到任何带有XPATH表达式的节点。

我为我的问题找到了两个次优解

1.解决方案： 使用一个XPath表达式，它不关心名称空间，比如'*:html/*:head/*:title/text()‘。
2.解决方案： 关闭解析器中的DOM命名空间： config->setParameter(xercesc::XMLUni::fgDOMNamespaces，假)；

如果找到了手动为未命名DOM命名空间设置自定义前缀的方法，或者如果我有一个XPath表达式，可以显式指定空前缀，但至少现在我可以处理文档，我会更高兴。

xqilla

xpath

xerces-c

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-04-22 08:23:49

html和head元素位于名称空间中，而XPath则在没有名称空间中查找元素。使用"h:html/h:head"并将"h"前缀绑定到XHTML命名空间。我不知道如何与XQilla API进行绑定，但是会有一些方法来实现。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29783758

复制

相似问题

问如何从XPath文档(Xerces/Xqilla)中提取具有HTML2的节点
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从XPath文档(Xerces/Xqilla)中提取具有HTML2的节点EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从XPath文档(Xerces/Xqilla)中提取具有HTML2的节点
EN