文章/答案/技术大牛

发布

问windows-1252到UTF-8
EN

Stack Overflow用户

提问于 2015-02-13 01:34:45

回答 1查看 13.4K关注 0票数 4

下面是我尝试使用的代码，它给我的输出是：

RetValue: á, é, í, ó, ú, ü, ñ, ¿ Value: á, é, í, ó, ú, ü, ñ, ¿ ConvertValue: ?, ?, ?, ?, ?, ?, ?, ?

这不是期望的输出。我认为这里的每个字符的输出应该是这样的%C3%。

public static void main(String[] args) {
    String value = "á, é, í, ó, ú, ü, ñ, ¿";
    String retValue = "";
    String convertValue = "";
    try {
        retValue = new String(value.getBytes(),
        Charset.forName("Windows-1252"));
        convertValue = new String(retValue.getBytes("Windows-1252"),
        Charset.forName("UTF-8"));
    } catch (Exception e) {
        e.printStackTrace();
    }
    System.out.println("RetValue: " + retValue + " Value: " + value
         + " ConvertValue: " + convertValue);
}

java

character-encoding

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-02-13 03:11:06

我知道您正在尝试将文本从默认编码编码为Windows-1252，然后再编码为UTF-8。

根据String类的javadoc

String(byte[] bytes, Charset charset)

通过使用指定的字符集对指定的字节数组进行解码来构造新字符串。

因此，您所做的是将默认编码文本解码为Windows-1252，然后将新获得的文本进一步解码为UTF-8。这就是它呈现异常的原因。

如果您的目的是将Windows1252编码为UTF-8，我建议您对java.nio包中的CharsetEncoder使用以下方法：

public static void main(String[] args) {
    String value = "á, é, í, ó, ú, ü, ñ, ¿";
    String retValue = "";
    String convertValue2 = "";
    ByteBuffer convertedBytes = null;
    try {
        CharsetEncoder encoder2 = Charset.forName("Windows-1252").newEncoder();
        CharsetEncoder encoder3 = Charset.forName("UTF-8").newEncoder();             
        System.out.println("value = " + value);

        assert encoder2.canEncode(value);
        assert encoder3.canEncode(value);

        ByteBuffer conv1Bytes = encoder2.encode(CharBuffer.wrap(value.toCharArray()));

        retValue = new String(conv1Bytes.array(), Charset.forName("Windows-1252"));

        System.out.println("retValue = " + retValue);

        convertedBytes = encoder3.encode(CharBuffer.wrap(retValue.toCharArray()));
        convertValue2 = new String(convertedBytes.array(), Charset.forName("UTF-8"));
        System.out.println("convertedValue =" + convertValue2);
    } catch (Exception e) {
        e.printStackTrace();
    }
}

我得到了以下输出：

值=？，？

retValue =á，é，í，ó，u，ü，ñ，？

convertedValue =á，é，í，ó，u，ü，ñ，？

票数 10

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/28484064

复制

相似问题

问windows-1252到UTF-8
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问windows-1252到UTF-8EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问windows-1252到UTF-8
EN