我正在处理一个文件,它读过中文维基百科的内容,显然已经被转换成UTF-8,但不正确。
import re,urllib
st=u'1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise'
st1= urllib.unquote(st).encode('UTF-8')
st2= urllib.unquote(st)
print st
print st1
print st2输出是
1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise
1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise
1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise编辑(找到额外信息)
我发现原始格式(不管是什么格式)都经历了以下转换过程
line[1]=urllib.quote(line[1])
try:
st=urllib.unquote(line[1]).decode("utf-8")
except UnicodeDecodeError:
st=urllib.unquote(line[1]).decode("latin1")我不知道原始编码(可能是GBK或GB18030),所以我不知道如何恢复正确的文本。这个可以收回吗?
发布于 2014-04-30 16:48:34
给出解码输入字节的代码.
尝试从utf-8解码字节很可能会失败,因为在utf-8中有太多的字节组合无效。因此,您的Unicode字符串可能来自解码latin1。
还有许多字节不是有效的latin1字符,但是在Python2.7中进行的快速测试表明,它无论如何都会对它们进行解码。这意味着输入字节被保留,但是print无法显示它们。
for x in range(256):
if chr(x).decode('latin1').encode('latin1') != chr(x):
print x如果将正确的代码页放入decode部件中,下面的代码应该能够恢复它们并解码到正确的代码页:
st1 = st.encode('latin1').decode('gb18030')
print st1https://stackoverflow.com/questions/23376497
复制相似问题