在大多数情况下,使用jsoup解析XML都没有问题。但是,如果XML文档中有<link>标记,jsoup会将<link>some text here</link>更改为<link />some text here。这使得无法使用CSS选择器提取<link>标记内的文本。
那么如何防止jsoup“清理”<link>标签呢?
发布于 2012-04-15 08:15:28
在jsoup 1.6.2中,我添加了一种XML解析器模式,它按原样解析输入,而不应用HTML5解析规则(元素内容、文档结构等)。此模式将文本保留在<link>标记中,并允许文本的倍数,等等。
下面是一个例子:
String xml = "<link>One</link><link>Two</link>";
Document xmlDoc = Jsoup.parse(xml, "", Parser.xmlParser());
Elements links = xmlDoc.select("link");
System.out.println("Link text 1: " + links.get(0).text());
System.out.println("Link text 2: " + links.get(1).text());返回:
Link text 1: One
Link text 2: Two发布于 2011-12-28 18:48:02
不要在<link>元素中存储任何文本-它是无效的。如果您需要额外的信息,请将其保留在HTML5 data-*属性中。我肯定jsoup不会碰它的。
<link rel="..." data-city="Warsaw" />发布于 2011-10-20 22:37:01
可以有一个解决方法来解决这个问题。在将XML传递给jsoup之前。转换XML文件来替换所有的一些虚拟标签,说,并做你想做的事情。
https://stackoverflow.com/questions/6722307
复制相似问题