文章/答案/技术大牛

发布

社区首页 >问答首页 >恢复失真的中文格式和识别原始中文编码

问恢复失真的中文格式和识别原始中文编码
EN

Stack Overflow用户

提问于 2014-04-29 22:34:42

回答 1查看 203关注 0票数 0

我正在处理一个文件，它读过中文维基百科的内容，显然已经被转换成UTF-8，但不正确。

import re,urllib
st=u'1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise'
st1= urllib.unquote(st).encode('UTF-8') 
st2= urllib.unquote(st) 
print st
print st1
print st2

输出是

1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise
1492: Conquest â–’ï¿½Â¢Ã¢â–’ï¿½ï¿½Â¬Ã¢â–’ï¿½â–’Â¹of Paradise
1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise

编辑(找到额外信息)

我发现原始格式(不管是什么格式)都经历了以下转换过程

  line[1]=urllib.quote(line[1])
  try:
      st=urllib.unquote(line[1]).decode("utf-8")
  except UnicodeDecodeError:
      st=urllib.unquote(line[1]).decode("latin1")

我不知道原始编码(可能是GBK或GB18030)，所以我不知道如何恢复正确的文本。这个可以收回吗？

python

encoding

utf-8

gbk

回答 1

Stack Overflow用户

发布于 2014-04-30 16:48:34

给出解码输入字节的代码.

尝试从utf-8解码字节很可能会失败，因为在utf-8中有太多的字节组合无效。因此，您的Unicode字符串可能来自解码latin1。

还有许多字节不是有效的latin1字符，但是在Python2.7中进行的快速测试表明，它无论如何都会对它们进行解码。这意味着输入字节被保留，但是print无法显示它们。

for x in range(256):
    if chr(x).decode('latin1').encode('latin1') != chr(x):
        print x

如果将正确的代码页放入decode部件中，下面的代码应该能够恢复它们并解码到正确的代码页：

st1 = st.encode('latin1').decode('gb18030')
print st1

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23376497

复制

相似问题

问恢复失真的中文格式和识别原始中文编码
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问恢复失真的中文格式和识别原始中文编码EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问恢复失真的中文格式和识别原始中文编码
EN