我目前正在进行汉字的分解(更准确地说,是日语汉字),我发现了一些似乎没有包含在Unihan数据库中的组件,或者它们无法用我所知道的任何字体正确显示。是否有方法在UTF-8或UTF-16中定位这些字符,并使它们以其字符形式正确显示?组成部分清单如下:
渋 ->氵+止+ ??我还没在Unihan数据库里找到这四个点..。即使是这里作者也不得不对组件进行编码.同样的问题出现在kanji 楽和摂和率上。
龍 ->+ ??右边的组件似乎不在Unicode中.拝或継也是如此。
制 -> ??+刂.左组件似乎不在Unicode中(最接近的可能是韦) .kanji 段 -?+殳也是如此。
祭 -> ??+示
留 - ??+
非常感谢您的建议:)
我查看了整个Unihan数据库(超过9万个字符),没有找到丢失的组件。我试过安装各种字体-- Babel韩文、simch5100等等--但它们对Unicode的覆盖率并不是100%。尽管如此,我担心这些组件中的一些并不包括在Unicode中,它们只能作为另一个字符的一部分来显示。
发布于 2022-11-11 22:52:49
您可能需要查看由Andrew (BabelStone)维护的IDS.TXT数据文件,该文件为Unicode版本15.0中定义的所有97,058 CJK统一表意文字提供表意描述序列(IDS)。
它使用了大约120个“编号组件”,这些字符还没有在Unicode中定义(尽管根据一些官方的提案,它们似乎以后可能会添加)。它们目前由名为BabelStone韩PUA的相关专用区域(PUA)字体中的符号表示,可以从页面底部免费下载。
还有一个开放源码应用程序以图形方式广泛使用这些数据,称为[医]中华统一科,可在GitHub上使用。
https://stackoverflow.com/questions/74408200
复制相似问题