首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何查找Unicode中缺少的汉字组件?

如何查找Unicode中缺少的汉字组件?
EN

Stack Overflow用户
提问于 2022-11-11 21:15:47
回答 1查看 31关注 0票数 1

我目前正在进行汉字的分解(更准确地说,是日语汉字),我发现了一些似乎没有包含在Unihan数据库中的组件,或者它们无法用我所知道的任何字体正确显示。是否有方法在UTF-8或UTF-16中定位这些字符,并使它们以其字符形式正确显示?组成部分清单如下:

->氵+止+ ??我还没在Unihan数据库里找到这四个点..。即使是这里作者也不得不对组件进行编码.同样的问题出现在kanji 上。

->+ ??右边的组件似乎不在Unicode中.也是如此。

-> ??+刂.左组件似乎不在Unicode中(最接近的可能是韦) .kanji -?+殳也是如此。

-> ??+示

- ??+

非常感谢您的建议:)

我查看了整个Unihan数据库(超过9万个字符),没有找到丢失的组件。我试过安装各种字体-- Babel韩文、simch5100等等--但它们对Unicode的覆盖率并不是100%。尽管如此,我担心这些组件中的一些并不包括在Unicode中,它们只能作为另一个字符的一部分来显示。

EN

回答 1

Stack Overflow用户

发布于 2022-11-11 22:52:49

您可能需要查看由Andrew (BabelStone)维护的IDS.TXT数据文件,该文件为Unicode版本15.0中定义的所有97,058 CJK统一表意文字提供表意描述序列(IDS)。

它使用了大约120个“编号组件”,这些字符还没有在Unicode中定义(尽管根据一些官方的提案,它们似乎以后可能会添加)。它们目前由名为BabelStone韩PUA的相关专用区域(PUA)字体中的符号表示,可以从页面底部免费下载。

还有一个开放源码应用程序以图形方式广泛使用这些数据,称为[医]中华统一科,可在GitHub上使用。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74408200

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档