首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >标准库有与unicodedata.decomposition相反的地方吗?

标准库有与unicodedata.decomposition相反的地方吗?
EN

Stack Overflow用户
提问于 2017-05-14 16:35:36
回答 1查看 80关注 0票数 0

unicodedata.decomposition将Unicode字符依次分解为它的组件,返回值是由空格分隔的代码点字符串。E.g

代码语言:javascript
复制
>>> unicodedata.decomposition("á") # 0061 is 'a' and 0301 is the 'acute accent' 
'0061 0301'

我使用的Unicode字符具有多个diacritics (越南语,例如ế,ở),并且并不总是按照所需的顺序进行分解(我需要去掉音调符号,如果有的话,不要去掉其他的字符符号)。

因此,我正在寻找一个可以从代码点组合字符的函数。

代码语言:javascript
复制
>>> compose([0x0065, 0x0302]) # 'e', 'circumflex'
'ê'

ADDENDUM:虽然我知道编写一个解决我的特定问题(越南语)的函数是微不足道的,但我贴出这个问题的前提是,在我之前的人已经解决了这个问题,而且它可能在标准库的某个地方。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-05-14 16:56:38

答案实际上离python中的链接不远,它的功能如下:unicodedata.normalize

代码语言:javascript
复制
>>> unicodedata.normalize('NFC', '\u0065\u0302')
'ê'
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43966376

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档