也许这不是问题,但我希望收集SO的智慧来帮助我找出答案。
我们正在努力确保跨平台的编码是一致的。要走的路显然是UTF8。然而,不幸的是,一些平台使用了扩展的ASCII (通常是某种形式的Windows代码页),我们担心当使用比方说从Windows代码页到UTF8的变音进行编码时,在UTF8中有多种可能的字符选择。
在不同的平台(Linux、Mac )上,我们如何确保选择的UTF8字符是一致的?
正如我所说的,也许这不是问题。也许有一些我不知道的标准映射。我们还没有看到任何问题,但一位同事刚刚提出了这个问题,所以我正在寻找信息。
提前感谢大家。
发布于 2012-10-10 07:49:26
只要首先正确地将原始文本转换为Unicode,然后使用Utf8存储/传输数据,应该没有问题。
发布于 2012-10-10 14:11:56
Unicode Consortium已经编译了一组mapping tables。从名义上来说,它们构成了一个事实上的标准。此外,那里的许多映射反映了正式的标准,因为按照Unicode定义任何新的字符编码已经变得很正常,即通过指定每个字符的Unicode编号(和/或Unicode名称)。
一旦字符映射到Unicode (即映射到Unicode代码点或Unicode数字),它在每种Unicode编码(如UTF-8 )中的编码都已明确定义。
因此,问题是如何确保您使用的转换例程根据这些表工作。在这方面,使用ICU可以被认为是安全的。
附注:没有扩展的ASCII。有多种字符编码,其中一些符合从0到0x7F的范围内的ASCII,有些则不符合。
https://stackoverflow.com/questions/12809927
复制相似问题