首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当<存在于文本内部时,jsoup输出错误的HTML

当<存在于文本内部时,jsoup输出错误的HTML
EN

Stack Overflow用户
提问于 2021-10-25 07:21:00
回答 1查看 33关注 0票数 0

输入html为

代码语言:javascript
复制
<p>猫<虎</p>

它可以被Chrome显示为猫<虎

但是,当您使用jsoup解析html时,则输出html为

代码语言:javascript
复制
<p>猫
  <虎 < p>
  </虎<></p>

我如何解决这个问题而不修改

代码语言:javascript
复制
< to &lt;
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-10-25 08:37:46

为什么你认为jsoup是“错误的”,而chrome是“正确的”?不是标记一部分的<应该始终转义为&lt; (因为否则它将被解释为opening a tag) -解决这个问题,所有符合标准的html工具都将同意相同的解析。如果不解决这个问题,有些人可能会不同意。在本例中,JSoup接受非字母数字作为标记名,即invalid。但是它遇到了一个未转义的<,它不是标记名的一部分!

如果您坚持不更改源html,则可以在将其提供给JSoup之前对其进行预处理:

代码语言:javascript
复制
 // before 
 Document doc = Jsoup.parse(html);

 // with pre-processing
 Document doc = Jsoup.parse(fixOutOfTagLessThan(html));

哪里

代码语言:javascript
复制
 /**
  * Replaces not-in-tag `<` by `&lt;`, but WILL FAIL in 
  * many cases, because it is unaware of:
  * - comments (<!--)
  * - javascript
  * - the fact that you should NOT PARSE HTML WITH REGEX
  */
 public static void fixOutOfTagLessThan(String html) {
    return html.replaceAll("<([^</>]+)<", "&lt;$1<");
 }

Chrome似乎将HTML5解析逻辑应用于treat the < as text (因为它不是有效标签名的一部分)--然而,据我所知,它应该拒绝>之前的所有内容,然后发出一个缺失的</p>。因此,在我看来,它似乎也没有完全遵循标准。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69704144

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档