问中文分词器stanford core nlp
EN

Stack Overflow用户

提问于 2015-05-29 18:24:46

回答 1查看 770关注 0票数 1

有没有人能帮我用斯坦福的核心nlp来标记化java中的中文文本？这是我到目前为止的代码：

File file = new File("example.txt");
   file.createNewFile();
   FileWriter fileWriter = new FileWriter(file);
   fileWriter.write("这是很好");
   fileWriter.flush();
   fileWriter.close();
   FileReader fileReader = new FileReader(file);

   InputStreamReader isReader = new InputStreamReader(new FileInputStream(file),"UTF-8");

   CHTBTokenizer chineseTokenizer = new CHTBTokenizer(isReader);

   String nextToken = "";
   while((nextToken = chineseTokenizer.getNext())!=null)
       System.out.println(nextToken);

但是我得到的不是3个单独的令牌，而是整个句子作为一个令牌。有人能帮帮我吗？

nlp

tokenize

stanford-nlp

回答 1

Stack Overflow用户

发布于 2015-05-30 03:20:48

CHTBTokenizer用于标记PTB格式的选民树。

对于纯中文文本，您必须使用也可从斯坦福大学获得的分词程序。您可以在Stanford Word Segmenter页面上找到更多信息和下载链接。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30527192

复制

相似问题

问中文分词器stanford core nlp
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问中文分词器stanford core nlpEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问中文分词器stanford core nlp
EN