我正在尝试重新训练斯坦福大学名称实体识别器的中文模型。我想知道是否有办法获得用于训练官方模型的原始中文语料库?斯坦福-nlp的网页上说,他们使用了来自CoNLL,MUC-6,MUC-7和ACE的语料库。我检查了一下,CoNLL2003似乎没有中文语料库,我需要为MUC-6,MUC-7和ACE付费。有没有其他方法可以获得这些?谢谢。
发布于 2016-02-10 02:16:45
网页信息是英文的,不是中文的。对于中文,我相信它使用的是OntoNotes语料库-也许可以查看相应的研究论文。无论如何,我们不能分发这些语料库,您必须从LDC获取它们。
https://stackoverflow.com/questions/35065228
复制相似问题