首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在java中使用BreakIterator将日语文本拆分成单词

在java中使用BreakIterator将日语文本拆分成单词
EN

Stack Overflow用户
提问于 2020-10-08 16:47:44
回答 1查看 131关注 0票数 0

我们正在尝试通过遵循this question中的代码来使用BreakIterator将日语句子拆分成单词。这段代码只适用于问题中给出的文本,当我们尝试给出一个不同的文本时,例如"速い茶色のキツネは怠惰な犬を飛び越えます“,它无法拆分单词。

可能的问题是什么?

EN

回答 1

Stack Overflow用户

发布于 2021-05-21 01:23:45

this question中的BreakIterator.getSentenceInstance(Locale.JAPAN)将日语脚本拆分成句子,而不是单词。通常,日语在书写时不使用标点符号来分隔单词。

你必须使用词法分析器把一个句子分解成单词。例如,您可以使用Java port of TinySegmenter

代码语言:javascript
复制
import java.util.List;
import jp.toastkid.libs.tinysegmenter.TinySegmenter;

public class Test {
  public static void main(String[] args) {
      TinySegmenter ts = TinySegmenter.getInstance();
      List<String> list = ts.segment("速い茶色のキツネは怠惰な犬を飛び越えます。");
      System.out.println(String.join(" | ", list));
      // You will get "速い | 茶色 | の | キツネ | は | 怠惰 | な | 犬 | を | 飛び越え | ます"
  }
}
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64258959

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档