许多日本人的平假名和假名都有一个变体和一个变体。
示例:は变成ば或ぱ(注意゛和゜部件)
问题:如何用Java从字符串中删除这些内容?
例如,我希望はばぱハバパ1aあア亜成为はははハハハ1aあア亜。
表现很重要。
上下文:将内容与遗留系统匹配。
发布于 2017-06-08 14:38:08
带有(汉)达库滕的字符可以分解为基kana和一个组合标记,Java在java.text中有它的java.text类。
String decomposed = Normalizer.normalize(input, Normalizer.Form.NFD);然后,可以使用replace或replaceAll删除组合(韩语)达克滕标记。
String noVoicingMarks = decomposed.replace("\u3099", "").replace("\u309A", "");或者(在我的测试中有点快)
String noVoicingMarks = decomposed.replaceAll("\u3099|\u309A", "");https://stackoverflow.com/questions/44438261
复制相似问题