文章/答案/技术大牛

发布

社区首页 >问答首页 >当<存在于文本内部时，jsoup输出错误的HTML

问当<存在于文本内部时，jsoup输出错误的HTML
EN

Stack Overflow用户

提问于 2021-10-25 07:21:00

回答 1查看 33关注 0票数 0

输入html为

<p>猫<虎</p>

它可以被Chrome显示为猫<虎

但是，当您使用jsoup解析html时，则输出html为

<p>猫
  <虎 < p>
  </虎<></p>

我如何解决这个问题而不修改

< to &lt;

jsoup

html-parser

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-10-25 08:37:46

为什么你认为jsoup是“错误的”，而chrome是“正确的”？不是标记一部分的<应该始终转义为< (因为否则它将被解释为opening a tag) -解决这个问题，所有符合标准的html工具都将同意相同的解析。如果不解决这个问题，有些人可能会不同意。在本例中，JSoup接受非字母数字作为标记名，即invalid。但是它遇到了一个未转义的<，它不是标记名的一部分！

如果您坚持不更改源html，则可以在将其提供给JSoup之前对其进行预处理：

 // before 
 Document doc = Jsoup.parse(html);

 // with pre-processing
 Document doc = Jsoup.parse(fixOutOfTagLessThan(html));

哪里

 /**
  * Replaces not-in-tag `<` by `&lt;`, but WILL FAIL in 
  * many cases, because it is unaware of:
  * - comments (<!--)
  * - javascript
  * - the fact that you should NOT PARSE HTML WITH REGEX
  */
 public static void fixOutOfTagLessThan(String html) {
    return html.replaceAll("<([^</>]+)<", "&lt;$1<");
 }

Chrome似乎将HTML5解析逻辑应用于treat the < as text (因为它不是有效标签名的一部分)--然而，据我所知，它应该拒绝>之前的所有内容，然后发出一个缺失的</p>。因此，在我看来，它似乎也没有完全遵循标准。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69704144

复制

相似问题

问当<存在于文本内部时，jsoup输出错误的HTML
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当<存在于文本内部时，jsoup输出错误的HTMLEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当<存在于文本内部时，jsoup输出错误的HTML
EN