在从网页中提取一些html时,我有一些元素包含以未知或不匹配的空白字符结尾的文本(即不匹配"\s"):
<span>Monday </span>在java中,为了检查这个字符是什么,我执行以下操作:
String s = getTheSpanContent();
char c = s.charAt(s.length() -1);
int i = (int) c;I的值是: 160
有人知道这是什么吗?我如何才能与之匹敌呢?
谢谢
发布于 2009-11-10 01:47:22
这是个non-breaking space。根据Pattern Javadocs,\\s匹配[ \t\n\x0B\f\r],所以如果您想匹配它,就必须显式地将\xA0添加到正则表达式中。
发布于 2009-11-10 01:46:21
这就是\u00A0,也称为不间断空格。如果您了解HTML语言,您就会明白它与 所表示的空间是相同的。显然,其中一个人正在使用它,而不是普通的空间。
发布于 2009-11-10 01:49:17
尝试使用它来匹配空格
Character.isSpaceChar(c) || c <= ' ';https://stackoverflow.com/questions/1702601
复制相似问题