当我用8859-1中不知道的字符将UTF-8字符串转换为8859-1时,这里和那里都有问号。当然他还能做什么!
是否有一个java工具可以将像"İKEA“这样的字符串映射到”宜家“并避免?充分利用它?
发布于 2013-05-16 15:24:32
对于具体的例子,您可以:
示例:
ByteArrayOutputStream out = new ByteArrayOutputStream();
// create encoder
CharsetEncoder encoder = StandardCharsets.ISO_8859_1.newEncoder();
encoder.onUnmappableCharacter(CodingErrorAction.IGNORE);
// write data
String ikea = "\u0130KEA";
String decomposed = Normalizer.normalize(ikea, Form.NFKD);
CharBuffer cbuf = CharBuffer.wrap(decomposed);
ByteBuffer bbuf = encoder.encode(cbuf);
out.write(bbuf.array());
// verify
String decoded = new String(out.toByteArray(), StandardCharsets.ISO_8859_1);
System.out.println(decoded);您仍在将定义109,384个值(Unicode 6)的字符集转换为支持256的字符集,因此始终存在限制。
还可以考虑一个更复杂的转换API,比如ICU,用于像音译这样的特性。
https://stackoverflow.com/questions/16568399
复制相似问题