首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从Inception Annotation engine导出带有标签的文本序列

从Inception Annotation engine导出带有标签的文本序列
EN

Stack Overflow用户
提问于 2020-11-06 04:04:45
回答 1查看 283关注 0票数 0

我正在使用INCEpTION (https://inception-project.github.io/)来注释我的法律文档。除了Inception中提供的任何导出格式,有没有一种方法可以导出我标记的原始文本序列以及它们的标签名称?

我这里的用例是创建一个数据集,其中我将文本中的句子注释为文本序列(对于法律领域,句子边界检测没有得到很好的解决),以及每个句子的自定义标记。

理想的导出格式应该是,在txt文件的每一行上: text label

我希望实现的数据格式类似于您在这里看到的格式:https://github.com/Law-AI/semantic-segmentation/blob/master/data/text/1953_L_1.txt

EN

回答 1

Stack Overflow用户

发布于 2020-12-06 08:11:12

让我们假设您已经在INCEpTION中配置了一个名为Segment的跨层(转换为内部名称webanno.custom.Segment),并且您已经在INCEpTION的Annotation页面上将一个名为my-text.txt的文档的几个句子注释为Segment。让我们进一步假设Segment层被配置为具有一个名为label的字符串特性,您可以在其中放置FactsRatio of the decisionPrecedent等值。

现在,您可以通过UIMA CAS XMI (XML1.0)中Annotation页面的操作栏中的 export 按钮导出单个带注释的文档。您得到的是一个包含两个文件的ZIP文件:

  • 包含注记方案的my-text.xmi文件
  • 包含注记方案

TypeSystem.xml文件

假设您已经安装了Python3,您现在可以安装DKPro Cassis,这是一个可以帮助您使用上述两个文件的库。

代码语言:javascript
复制
pip install dkpro-cassis

现在,您可以使用Cassis编写一个简短的Python脚本,它读取注释并以所需的格式输出它们:

代码语言:javascript
复制
from cassis import *

with open('TypeSystem.xml', 'rb') as f:
  typesystem = load_typesystem(f)

with open('my-text.xmi', 'rb') as f:
  doc = load_cas_from_xmi(f, typesystem=typesystem)

with open('output.txt', 'w') as f:
  for segment in doc.select('webanno.custom.Segment'):
    f.write(f"{segment.get_covered_text()}\t{segment.label}\n")

在INCEpTION网站的Python examples部分有一个类似的可运行的示例。

免责声明:我正在做INCEpTION项目。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64704561

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档