首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用BRAT创建和训练OpenNlp模型?

使用BRAT创建和训练OpenNlp模型?
EN

Stack Overflow用户
提问于 2016-10-05 14:58:04
回答 1查看 1K关注 0票数 3

我可能需要为OpenNLP创建一个自定义培训集,这将需要我手动注释很多条目。

为了让事情变得更简单,GUI解决方案可能是最好的主意(手动编写注释标记--这并不酷),而且我刚刚发现BRAT看起来像我所需要的。

BRAT可以导出带注释的文件(.ann),但我在OpenNLP手册中找不到对该文件类型的任何引用,我也不确定这是否有效。

我想要做的是从BRAT导出这个带注释的文件,并使用它来训练OpenNLP的模型,我并不关心它是否可以使用代码或CLI来完成。

有人能给我指明正确的方向吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-10-13 12:19:09

OpenNLP本机支持BRAT格式,用于培训和评估名称查找器。目前不支持其他组件。添加对其他组件的支持可能并不困难,如果您感兴趣,您应该在opennlp-dev列表中请求它。

CLI可以用于使用brat来训练模型,下面是向您展示用法的命令:

  • bin/opennlp TokenNameFinderTrainer.brat

为了训练一个模型,下列论点是强制性的:

  • bratDataDir --这应该指向包含.ann和.txt文件的文件夹
  • annotationConfig,这必须指向brat用于注释项目的配置文件。
  • 朗,你的文本文件的语言(例如,en)
  • 对创建的模型文件的名称进行建模

名称Finder需要将其输入裁剪成句子和标记。默认情况下,它假设每一行一个句子,并应用空白标记。此行为可以使用ruleBasedTokenizer或tokenizerModel参数进行调整。另外,还可以通过sentenceDetector模型参数使用自定义语句检测器模型。

要评估您的模型,交叉验证和评估工具可以通过将.brat附加到它们的名称来以简单的方式使用。

  • bin/opennlp TokenNameFinderCrossValidator.brat
  • bin/opennlp TokenNameFinderEvaluator.brat

为了加速您的注释项目,您可以使用opennlp注解器。它可以加载名称查找模型,并与BRAT集成,自动注释您的文档。这可以加快您的注释工作。您可以在opennlp沙箱中找到该组件。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39877434

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档