我有nltk的WSJ treebank语料库。我想用棕色语料库的标记集来加载它。有可能吗?
import nltk
wsj = nltk.corpus.treebank.tagged_sents(tagset ='universal') # universal tags
wsj2 = nltk.corpus.treebank.tagged_sents() # treebank specific tags发布于 2015-07-24 00:13:49
根据本thread中的讨论,这是不可能的。
到目前为止,NLTK只提供了将特定标记集映射到通用标记集的可能性。也许讨论中建议的解决方案之一可以有所帮助:
NLTK显然还不支持这一点,但请参阅Dan Zeman的Interset工具或我在https://gist.github.com/nschneid/6476715上的脚本
https://stackoverflow.com/questions/31569132
复制相似问题