什么是UTF-8编码?为什么以这种格式保存的文本文件比另一种格式的文件更大?
例如,我在记事本中输入了'A‘,并将其保存为UTF-8格式。
在此之后,文件大小变为:4字节。为什么?
发布于 2011-02-02 11:09:59
这几乎可以肯定,因为无论您用来保存文件的是什么,它也包括byte order mark,它在UTF-8中是0xEF 0xBB 0xBF。
至于UTF-8是什么-它是一种Unicode编码,它使用更多的字节来表示更高的Unicode值;重要的是,ASCII字符存储为单字节(与ASCII中的字节相同)。因此,任何ASCII文件也是具有相同文本的UTF-8文件。和Wikipedia一样,This web page也有更多内容。
发布于 2011-02-02 11:08:56
因为在文件的开始处插入了BOM (字节顺序标记)。
BOM是一种特殊的字符U+FEFF,除了作为检测文件编码的一种方式外,它没有任何意义。你可以在这里阅读到:http://unicode.org/faq/utf_bom.html#BOM
在使用UTF-8的情况下,BOM编码为\xEF \xBB \xBF,这是额外的3个字节的来源。记事本和其他文本编辑器通过查找BOM来猜测文件的编码。如果它看到\xFF \xFE,它将假定它是以小端格式编码的UCS。A \xFE \xFF表示以大端格式编码的UCS-2。
发布于 2011-02-02 11:09:41
这仅仅是因为BOM,字节顺序标记。UTF-8仅扩展数值大于127 (非ASCII)的字符。
并不是所有的文本编辑器都这样做。记事本因此而臭名昭著(无用的UTF-8 BOM)。
https://stackoverflow.com/questions/4870396
复制相似问题