我的文本编辑器允许我以几种不同的字符格式编码: Ansi、UTF-8、UTF-8(No BOM)、UTF-16LE和UTF-16BE。
它们之间的区别是什么?
通常被认为是最好的格式是什么(我使用Python,如果有区别的话)?
发布于 2010-06-10 16:42:32
。
一般来说,UTF-8是一个很好的整体选择,并且具有广泛的兼容性(只需确保不要编写BOM,因为这是大多数其他软件所期望的)。
如果大部分文本由非ASCII字符组成(即不使用基本的拉丁字母),则UTF-16可以占用较少的空间。
只有在特定需要与不支持Unicode的旧版应用程序进行交互时,才应该使用"Ansi“。
关于任何编码的重要一点是,它们是除了数据之外还需要通信的元数据。这意味着必须知道某些字节流的编码,才能正确地将其解释为文本。因此,您应该使用记录实际使用的编码的格式(这里的主要示例是XML),或者在给定的上下文中标准化单个编码并仅使用该编码。
例如,如果您开始了一个软件项目,那么您可以指定所有源代码都使用给定的编码(同样:我建议使用UTF-8)并坚持使用该编码。
特别是对于Python文件,有a way to specify the encoding of your source files。
发布于 2010-06-10 16:35:53
Here。请注意,"ANSI“通常是CP1252。
发布于 2010-06-10 16:37:49
你可能会得到最好的实用工具与UTF-8没有物料清单。忘记ANSI和ASCII的存在吧,它们是过时的恐龙。
https://stackoverflow.com/questions/3012821
复制相似问题