首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >带有斯坦福POS标签的POS直方图

带有斯坦福POS标签的POS直方图
EN

Stack Overflow用户
提问于 2014-01-22 17:15:46
回答 1查看 173关注 0票数 0

我需要在Tweets上标记单词,使用斯坦福POS标签。

正如这里所解释的,1,我使用了类MaxentTagger,然后使用了方法:maxtagger.tagString("This is a sample text");

这就产生了产出:

This_DT is_VBZ a_DT sample_NN text_NN

现在,我必须为每条推文创建一个关于每条推特中每个标记的直方图。我在JavaDoc里搜索过,但是没有发现任何有用的东西。

如果我必须自己创建直方图,我如何读取输出,而不是字符串(例如,标签的列表)?

EN

回答 1

Stack Overflow用户

发布于 2014-01-22 19:01:36

我建议使用tagCoreLabels()或tagSentence()方法。例如,使用tagSentence(),您可以从使用tag()方法轻松访问pos标记的地方获得一个TaggedWord列表。它应该使用包含"_“的POS标记来说明单词或模型。

要从一个简单的句子字符串创建一个列表,可以使用PTBTokenizer。

代码语言:javascript
复制
List<CoreLabel> tokens = new PTBTokenizer<CoreLabel>(
  new StringReader(s),new CoreLabelTokenFactory(),"invertible").tokenize();

使用PTBEscapingProcessor转义解析器模型中具有特殊意义的字符:

代码语言:javascript
复制
new PTBEscapingProcessor().apply(tokens)

我相信斯坦福工具中没有对直方图的具体支持,但我可能错了。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21289541

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档