我使用maxent part of speech tagger对词性标记使用nltk.pos_tag。我需要一张所有可用标签的表格。
我的最终目标是从文本中仅提取副词和形容词。
任何帮助都是非常感谢的。
谢谢
发布于 2011-11-18 07:28:51
根据其文档字符串,pos_tag使用“NLTK当前推荐的词性标签器”,因此该建议的有效期可能会过期。对于可重现的结果,请使用显式的POS标记器对象。
查看source code for pos_tag,我们可以看到它调用
>>> nltk.data.load('taggers/maxent_treebank_pos_tagger/english.pickle')从中我们可以获得POS标签的列表,其中包含
>>> _.classifier().labels()
['PRP$', 'VBG', 'VBD', '``', 'VBN', 'POS', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ',
'DT', '#', 'RP', '$', 'NN', 'FW', ',', '.', 'TO', 'PRP', 'RB', '-LRB-', ':',
'NNS', 'NNP', 'VB', 'WRB', 'CC', 'LS', 'PDT', 'RBS', 'RBR', 'CD', '-NONE-',
'EX', 'IN', 'WP$', 'MD', 'NNPS', '-RRB-', 'JJS', 'JJR', 'SYM', 'UH'](我必须承认,这是我通过对象检查和反复试验发现的。)
形容词和副词至少是JJ (adj)和RB (adv)这两个类别,再加上VBN (过去分词,例如“JJ”)。
发布于 2014-02-11 01:47:27
尝试:
import nltk
nltk.help.upenn_tagset()
# and
nltk.help.brown_tagset()https://stackoverflow.com/questions/8175726
复制相似问题