有没有人能帮我用斯坦福的核心nlp来标记化java中的中文文本?这是我到目前为止的代码:
File file = new File("example.txt");
file.createNewFile();
FileWriter fileWriter = new FileWriter(file);
fileWriter.write("这是很好");
fileWriter.flush();
fileWriter.close();
FileReader fileReader = new FileReader(file);
InputStreamReader isReader = new InputStreamReader(new FileInputStream(file),"UTF-8");
CHTBTokenizer chineseTokenizer = new CHTBTokenizer(isReader);
String nextToken = "";
while((nextToken = chineseTokenizer.getNext())!=null)
System.out.println(nextToken);但是我得到的不是3个单独的令牌,而是整个句子作为一个令牌。有人能帮帮我吗?
发布于 2015-05-30 03:20:48
CHTBTokenizer用于标记PTB格式的选民树。
对于纯中文文本,您必须使用也可从斯坦福大学获得的分词程序。您可以在Stanford Word Segmenter页面上找到更多信息和下载链接。
https://stackoverflow.com/questions/30527192
复制相似问题