我不太熟悉Microsoft Word使用的编码。如果有人从Word中保存.doc或.docx文件,所使用的标准编码是什么?
我猜它不是UTF-8,因为结果文本(粘贴在UTF-8编码的文本文件中)不符合某些标点符号(例如引号)。
例如,当粘贴在UTF-8文本文件中时,一个开头词“智能引号”将产生一个ì符号。如果Word确实在UTF-8中编码,那么Word如何尝试呈现实际的UTF-8 character?
编辑
在做了一些调查之后,我可以看到Microsoft .docx文件实际上是一种压缩格式。解压缩会导致许多.xml文件被解压缩。
然而,UTF-8编码的文本文件无法实现这些“智能”引用仍然令人费解。任何有启发性的信息都是有帮助的。
发布于 2018-12-16 23:06:36
如今,docx文件实际上是一堆压缩的xml文件。其中一个文件是document.xml文件,它以下面一行(即xml )开头:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>如你所见,这是一种UTF-8编码。
编辑
UTF-8支持完整的Unicode字符集。为了完整起见,这并不意味着所有UTF-8字符实际上都可以在xml文件中使用。即使是CDATA块也有其局限性。但话虽如此,储存一个‘或一个’并不是一个问题。
更重要的是,文件格式实际上与应用程序本身的复制粘贴行为没有任何关系。
然而,以下是单词如何存储‘和μ’的符号。

校正
有点让人困惑,但我刚刚意识到,通过“智能引用”,您可能指的是单词必须表示卷曲引号的机制。在我之前的回答中,我认为你的意思是“后退”,这是另一回事。-抱歉弄乱了。
不管怎么说,以下是这些智能引号的独角兽:

让我们把它们放在一个简单的UTF-8编码文本文件中。其结果并不是那么壮观:
U+2018在UTF-8中编码为E2 80 98。U+2019在UTF-8中编码为E2 80 99。E2 80 9C在UTF-8中将U+201C编码为U+201D在UTF-8中编码为E2 80 9D。所以,我走了一步,把它们放在一个word文件里。我输入了一个带有常规引号的行,还有一个带有智能引号的行。
“ this is a test “
“ this is another test ”然后,我保存了它,并查看了它是如何存储在Word的xml结构中的。实际上,它是按预期存储的。

https://stackoverflow.com/questions/28172022
复制相似问题