文章/答案/技术大牛

发布

社区首页 >问答首页 >python 3，unicode转换，2\u 0000作为一个字符

问python 3，unicode转换，2\u 0000作为一个字符
EN

Stack Overflow用户

提问于 2015-05-26 15:51:17

回答 1查看 6.8K关注 0票数 1

我的python3脚本通过管道从c++程序接收字符串。通过Unicode代码点编码的字符串。我需要正确地解码它。

例如，考虑包含西里尔符号的字符串：'тест test'

尝试使用python3：print('тест test'.encode())对此字符串进行编码。我们找到b'\xd1\x82\xd0\xb5\xd1\x81\xd1\x82 test'了

C++程序将此字符串编码为：b'\u00D1\u0082\u00D0\u00B5\u00D1\u0081\u00D1\u0082 test'

编码的字符串看起来非常相似-- python3使用\x (2位)，c++程序使用\u (4位)。但我不知道如何将b'\u00D1\u0082\u00D0\u00B5\u00D1\u0081\u00D1\u0082 test'转换为'тест test'。主要问题- python3将b'\u00D1\u0082\u00D0\u00B5\u00D1\u0081\u00D1\u0082'视为8-字符字符串，但它只包含4个字符。

string

python-3.x

unicode

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-05-27 02:45:11

如果您从C++收到的字符串在Python中如下所示：

s = b'\u00D1\u0082\u00D0\u00B5\u00D1\u0081\u00D1\u0082 test'

然后这将解码它：

result = s.decode('unicode-escape').encode('latin1').decode('utf8')
print(result)

输出：

тест test

第一阶段将接收到的字节字符串转换为Unicode字符串：

>>> s1 = s.decode('unicode-escape')
>>> s1
'Ñ\x82ÐµÑ\x81Ñ\x82 test'

不幸的是，Unicode码点实际上是UTF-8字节值.latin1编码是头256个Unicode编码点的1:1映射，因此使用此编解码器编码可以将编码点转换回字节字符串中的字节值：

>>> s2 = s1.encode('latin1')
>>> s2
b'\xd1\x82\xd0\xb5\xd1\x81\xd1\x82 test'

现在，字节字符串可以解码为正确的Unicode字符串：

>>> s3 = s2.decode('utf8')
>>> s3
'тест test'

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30463313

复制

相似问题

问python 3，unicode转换，2\u 0000作为一个字符
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问python 3，unicode转换，2\u 0000作为一个字符EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问python 3，unicode转换，2\u 0000作为一个字符
EN