首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在HtmlCleaner中处理特殊实体,如& nbsp;,& pound;

在HtmlCleaner中处理特殊实体,如& nbsp;,& pound;
EN

Stack Overflow用户
提问于 2010-12-01 00:26:06
回答 3查看 2.8K关注 0票数 0

我正在使用HtmlCleaner库来提取html内容。它工作正常,但几乎没有限制。

它不能处理像or或引号之类的特殊字符。对于url:http://www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html,在将xpath赋给价格时,它给出了"& pound;“而不是£

是否有任何属性,我们可以设置在htmlcleaner来处理这个或任何其他解决方案。

谢谢

Jitendra

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-12-01 01:20:18

不我不相信HtmlCleaner能做到这一点。但是,您可以使用Apache Commons StringEscapeUtils对html进行“取消转义”,如下所示:

代码语言:javascript
复制
StringEscapeUtils.unescapeHtml("£679.00");

将生成£679.00

我建议你试试JSoup,而不是HtmlCleaner。

票数 4
EN

Stack Overflow用户

发布于 2012-02-08 16:19:36

我使用的htmlcleaner版本是2.2,org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true)对我很有用。虽然我必须使用string.replace(" ", " ")来使我得到的html内容是完全正确的。

票数 1
EN

Stack Overflow用户

发布于 2011-12-21 03:37:18

这现在可以通过org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true)来完成。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4315979

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档