我下载了Conll 2003语料库("eng.train")。我想使用它来提取实体,使用python crfsuite培训。但我不知道如何加载这个文件进行训练。
我找到了这个例子,但不是英语。
train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))
test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))此外,在未来,我想培训新的实体,而不是POS或地点。我怎么才能把这些加进去。
此外,请建议如何处理多个单词。
发布于 2018-12-10 15:47:46
您可以使用ConllCorpusReader.
这里是一个一般的推进:ConllCorpusReader('file path', 'file name', columntypes=['','',''])
这里是可以使用:'WORDS', 'POS', 'TREE', 'CHUNK', 'NE', 'SRL', 'IGNORE'的列类型列表
示例
from nltk.corpus.reader import ConllCorpusReader
train = ConllCorpusReader('CoNLL-2003', 'eng.train', ['words', 'pos', 'ignore', 'chunk'])
test = ConllCorpusReader('CoNLL-2003', 'eng.testa', ['words', 'pos', 'ignore', 'chunk'])https://stackoverflow.com/questions/45619892
复制相似问题