首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >虚拟助理的POS标记器

虚拟助理的POS标记器
EN

Stack Overflow用户
提问于 2018-04-10 13:38:33
回答 1查看 78关注 0票数 1

我正试着为Voise助手做一个POS标签。然而,nltk的pos标签nltk.pos_tag并不适合我。例如:

代码语言:javascript
复制
sent = 'open Youtube'
tokens = nltk.word_tokenize(sent)
nltk.pos_tag(tokens, tagset='universal')
>>[('open', 'ADJ'), ('Youtube', 'NOUN')]

在上述情况下,我希望打开这个词是动词,而不是形容词。同样,它将“关闭”一词标记为副词,而不是动词。

我也尝试过使用n-gram tagger

代码语言:javascript
复制
train_sents = brown_tagged_sents[:size] 
test_sents = brown_tagged_sents[size:]
default_tagger = nltk.DefaultTagger('NOUN')
unigram_tagger = nltk.UnigramTagger(train_sents, backoff = default_tagger)
bigram_tagger = nltk.BigramTagger(train_sents, backoff = unigram_tagger)
trigram_tagger = nltk.TrigramTagger(train_sents, backoff = bigram_tagger)

我用过nltk的棕色语料库。但它仍然给出同样的结果。

所以我想知道:

  1. 是否有更好的标记语料库来训练标记者来制作声音/虚拟助手?
  2. 是否有比trigram更高的n克,即一起看4个或更多的单词,比如trigram和bigram,分别看3个和2个单词。它会提高性能吗?
  3. 我怎么才能解决这个问题?
EN

回答 1

Stack Overflow用户

发布于 2018-04-12 17:30:31

关于问题3

我认为这不是一个普遍的解决办法,但至少对你提到的“做这个/那个”的情况是有效的。所以,如果你在开头加一个" to“,标签者会倾向于”理解“一个动词,而不是一个形容词、名词或副词!

我用演示截图只是为了比较解释

具体来说,如果您想要使用Freeling,可以使用java/python avaliable,也可以只使用命令行调用它。

尊重问题2我认为包括上下文工作对完整的句子或大的文本更好,也许不是命令一个基本的虚拟助手的情况。

祝好运!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49755153

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档