我需要在Tweets上标记单词,使用斯坦福POS标签。
正如这里所解释的,1,我使用了类MaxentTagger,然后使用了方法:maxtagger.tagString("This is a sample text");
这就产生了产出:
This_DT is_VBZ a_DT sample_NN text_NN
现在,我必须为每条推文创建一个关于每条推特中每个标记的直方图。我在JavaDoc里搜索过,但是没有发现任何有用的东西。
如果我必须自己创建直方图,我如何读取输出,而不是字符串(例如,标签的列表)?
发布于 2014-01-22 19:01:36
我建议使用tagCoreLabels()或tagSentence()方法。例如,使用tagSentence(),您可以从使用tag()方法轻松访问pos标记的地方获得一个TaggedWord列表。它应该使用包含"_“的POS标记来说明单词或模型。
要从一个简单的句子字符串创建一个列表,可以使用PTBTokenizer。
List<CoreLabel> tokens = new PTBTokenizer<CoreLabel>(
new StringReader(s),new CoreLabelTokenFactory(),"invertible").tokenize();使用PTBEscapingProcessor转义解析器模型中具有特殊意义的字符:
new PTBEscapingProcessor().apply(tokens)我相信斯坦福工具中没有对直方图的具体支持,但我可能错了。
https://stackoverflow.com/questions/21289541
复制相似问题