处理Unicode是我使用Python编程的唯一挑战,我在过去的项目中遇到了许多问题,我总是用蛮横的方法来测试不同的编码,直到一些东西起作用(如果有初学者的教程,它将非常方便)。
例如,我有以下代码:
# -*- coding: utf-8 -*-
string = "Åland Islands"
with open("1.txt","w")as f:
f.write(string.decode("utf-8"))返回:
return codecs.utf\_8\_decode(input, errors, True) UnicodeDecodeError:'utf8‘编解码器无法解码0位置的字节0xc5 :无效的连续字节
我测试了很多编码来解决这个问题,但没有结果。
发布于 2016-07-16 19:36:11
代码行只是告诉Python解释器应该如何解释字节。这并不意味着脚本实际上包含UTF-8编码的文本。实际上,错误消息表明该文件被保存为ISO-8859编码(拉丁文-1)文本。0xc5是奥尔的拉丁文-1编码;0xc30x85是UTF-8编码。
您需要确保编辑器将文件保存为UTF-8编码的文本,这样代码行就不会欺骗解释器。
https://stackoverflow.com/questions/38414724
复制相似问题