根据文档,以下命令
'Brückenspinne'.encode("utf-8",errors='replace')应该给我字节序列b'Br??ckenspinne'。然而,unicode字符并没有被替换,而是被编码:
b'Br\xc3\xbcckenspinne'你能告诉我我是如何消除unicode字符的吗?(我将替换用于测试目的,我打算稍后使用'xmlcharrefreplace'。老实说,我希望将unicode字符转换为它们的xmlcharref,将所有内容都保持为字符串)。
谢谢。
发布于 2017-05-15 14:29:53
utf-8编码可以表示字符ü;不发生替换。
使用其他不能表示字符的编码。例如,ascii
>>> 'Brückenspinne'.encode("ascii", errors='replace')
b'Br?ckenspinne'
>>> 'Brückenspinne'.encode("ascii", errors='xmlcharrefreplace')
b'Brückenspinne'https://stackoverflow.com/questions/43981959
复制相似问题