首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在Java中删除dakuten/handakuten (又名10-10,ぱ→は)

在Java中删除dakuten/handakuten (又名10-10,ぱ→は)
EN

Stack Overflow用户
提问于 2017-06-08 14:17:48
回答 1查看 192关注 0票数 4

许多日本人的平假名和假名都有一个变体和一个变体。

示例:は变成ば或ぱ(注意゛和゜部件)

问题:如何用Java从字符串中删除这些内容?

例如,我希望はばぱハバパ1aあア亜成为はははハハハ1aあア亜

表现很重要。

上下文:将内容与遗留系统匹配。

EN

回答 1

Stack Overflow用户

发布于 2017-06-08 14:38:08

带有(汉)达库滕的字符可以分解为基kana和一个组合标记,Java在java.text中有它的java.text类。

代码语言:javascript
复制
String decomposed = Normalizer.normalize(input, Normalizer.Form.NFD);

然后,可以使用replacereplaceAll删除组合(韩语)达克滕标记。

代码语言:javascript
复制
String noVoicingMarks = decomposed.replace("\u3099", "").replace("\u309A", "");

或者(在我的测试中有点快)

代码语言:javascript
复制
String noVoicingMarks = decomposed.replaceAll("\u3099|\u309A", "");
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44438261

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档