我正在用Java构建一个应用程序,使用Jena进行语义信息抓取。我正在寻找一个RDFa解析器,可以让我正确地提取所有的RDFa语句。具体地说,如果提取有关所用名称空间的信息,并假定页面中的RDFa标记是正确的,则会生成正确的三元组,即区分对象和数据属性的三元组。
我浏览了http://rdfa.info/wiki/Consume for Java站点上的所有RDFa解析器。它们都很难提取任何RDFa语句,如果它们没有崩溃,耶拿RDFa解析器显示大量错误,然后死于可怕的死亡,数据几乎没有什么用处,因为它被错误地处理,通常是混乱的。我是这方面的新手,所以请温文点:)
我也在考虑使用用不同语言编写的库,但我也不知道如何将它插入Java代码中。有什么建议吗?
发布于 2010-06-05 04:23:34
大多数RDFa解析器都在处理无效的超文本标记语言。any23 library包含一个RDFa解析器,可以处理无效的HTML.它可以将任何RDFa解析为完整的RDF,包括名称空间映射等,并且正在积极开发中。
发布于 2010-07-06 02:38:49
使用java-rdfa。它支持jena,并使用validator.nu html 5解析器,该解析器可以像浏览器一样解析html (即,它将修复损坏的标记)。
https://stackoverflow.com/questions/2753523
复制相似问题