我有一个包含来自这里的8105个汉字的Unicode代码点的文件,类似于
U+516D
U+4E03
U+516B据我所知,这些代表了以下汉字
六 [Chinese character for 'six', Reference http://hanzidb.org/character/%E5%85%AD]
七 [Chinese character for 'seven', Reference http://hanzidb.org/character/%E4%B8%83]
八 [Chinese character for 'eight', Reference http://hanzidb.org/character/%E5%85%AB]如何使用Python3将包含字符串U+516D、U+4E03、U+516B的文件转换为相应的汉字?
任何帮助都将不胜感激。
提前谢谢。
发布于 2020-02-13 05:42:28
def get_character(string):
return chr(int(string[2:], 16))>>> get_character("U+4E03")
'七'
>>> get_character("U+516D")
'六'
>>> get_character("U+4E03")
'七'
>>> get_character("U+516B")
'八'这是我所知道的最简单的方法,注意它没有检查正确的格式,只是去掉了假设为U+的前两个字符
发布于 2020-02-13 09:51:26
此正则表达式将将U+hhhh格式的文本(4-6个十六进制字符)转换为相应的Unicode代码点:
import re
s = 'U+516D U+4E03 U+516B'
s = re.sub(r'U\+([0-9A-F]{4,6})',lambda m: chr(int(m.group(1),16)),s)
print(s)输出:
六 七 八https://stackoverflow.com/questions/60200819
复制相似问题