我正在使用HtmlCleaner库来提取html内容。它工作正常,但几乎没有限制。
它不能处理像or或引号之类的特殊字符。对于url:http://www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html,在将xpath赋给价格时,它给出了"& pound;“而不是£
是否有任何属性,我们可以设置在htmlcleaner来处理这个或任何其他解决方案。
谢谢
Jitendra
发布于 2010-12-01 01:20:18
不我不相信HtmlCleaner能做到这一点。但是,您可以使用Apache Commons StringEscapeUtils对html进行“取消转义”,如下所示:
StringEscapeUtils.unescapeHtml("£679.00");将生成£679.00。
我建议你试试JSoup,而不是HtmlCleaner。
发布于 2012-02-08 16:19:36
我使用的htmlcleaner版本是2.2,org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true)对我很有用。虽然我必须使用string.replace(" ", " ")来使我得到的html内容是完全正确的。
发布于 2011-12-21 03:37:18
这现在可以通过org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true)来完成。
https://stackoverflow.com/questions/4315979
复制相似问题