我可能需要为OpenNLP创建一个自定义培训集,这将需要我手动注释很多条目。
为了让事情变得更简单,GUI解决方案可能是最好的主意(手动编写注释标记--这并不酷),而且我刚刚发现BRAT看起来像我所需要的。
BRAT可以导出带注释的文件(.ann),但我在OpenNLP手册中找不到对该文件类型的任何引用,我也不确定这是否有效。
我想要做的是从BRAT导出这个带注释的文件,并使用它来训练OpenNLP的模型,我并不关心它是否可以使用代码或CLI来完成。
有人能给我指明正确的方向吗?
发布于 2016-10-13 12:19:09
OpenNLP本机支持BRAT格式,用于培训和评估名称查找器。目前不支持其他组件。添加对其他组件的支持可能并不困难,如果您感兴趣,您应该在opennlp-dev列表中请求它。
CLI可以用于使用brat来训练模型,下面是向您展示用法的命令:
为了训练一个模型,下列论点是强制性的:
名称Finder需要将其输入裁剪成句子和标记。默认情况下,它假设每一行一个句子,并应用空白标记。此行为可以使用ruleBasedTokenizer或tokenizerModel参数进行调整。另外,还可以通过sentenceDetector模型参数使用自定义语句检测器模型。
要评估您的模型,交叉验证和评估工具可以通过将.brat附加到它们的名称来以简单的方式使用。
为了加速您的注释项目,您可以使用opennlp注解器。它可以加载名称查找模型,并与BRAT集成,自动注释您的文档。这可以加快您的注释工作。您可以在opennlp沙箱中找到该组件。
https://stackoverflow.com/questions/39877434
复制相似问题