首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >中文分词器stanford core nlp

中文分词器stanford core nlp
EN

Stack Overflow用户
提问于 2015-05-29 18:24:46
回答 1查看 770关注 0票数 1

有没有人能帮我用斯坦福的核心nlp来标记化java中的中文文本?这是我到目前为止的代码:

代码语言:javascript
复制
File file = new File("example.txt");
   file.createNewFile();
   FileWriter fileWriter = new FileWriter(file);
   fileWriter.write("这是很好");
   fileWriter.flush();
   fileWriter.close();
   FileReader fileReader = new FileReader(file);

   InputStreamReader isReader = new InputStreamReader(new FileInputStream(file),"UTF-8");

   CHTBTokenizer chineseTokenizer = new CHTBTokenizer(isReader);

   String nextToken = "";
   while((nextToken = chineseTokenizer.getNext())!=null)
       System.out.println(nextToken);

但是我得到的不是3个单独的令牌,而是整个句子作为一个令牌。有人能帮帮我吗?

EN

回答 1

Stack Overflow用户

发布于 2015-05-30 03:20:48

CHTBTokenizer用于标记PTB格式的选民树。

对于纯中文文本,您必须使用也可从斯坦福大学获得的分词程序。您可以在Stanford Word Segmenter页面上找到更多信息和下载链接。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30527192

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档