文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在python crf套件中使用Conll 2003语料库？

问如何在python crf套件中使用Conll 2003语料库？
EN

Stack Overflow用户

提问于 2017-08-10 17:19:25

回答 1查看 1.7K关注 0票数 2

我下载了Conll 2003语料库("eng.train")。我想使用它来提取实体，使用python crfsuite培训。但我不知道如何加载这个文件进行训练。

我找到了这个例子，但不是英语。

train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))
test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))

此外，在未来，我想培训新的实体，而不是POS或地点。我怎么才能把这些加进去。

此外，请建议如何处理多个单词。

machine-learning

nlp

crfsuite

python-crfsuite

回答 1

Stack Overflow用户

发布于 2018-12-10 15:47:46

您可以使用ConllCorpusReader.

这里是一个一般的推进：ConllCorpusReader('file path', 'file name', columntypes=['','',''])

这里是可以使用：'WORDS', 'POS', 'TREE', 'CHUNK', 'NE', 'SRL', 'IGNORE'的列类型列表

示例

from nltk.corpus.reader import ConllCorpusReader

train = ConllCorpusReader('CoNLL-2003', 'eng.train', ['words', 'pos', 'ignore', 'chunk'])
test = ConllCorpusReader('CoNLL-2003', 'eng.testa', ['words', 'pos', 'ignore', 'chunk'])

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45619892

复制

相似问题

问如何在python crf套件中使用Conll 2003语料库？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在python crf套件中使用Conll 2003语料库？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在python crf套件中使用Conll 2003语料库？
EN