首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从简单的正则提取转移到NER?

从简单的正则提取转移到NER?
EN

Stack Overflow用户
提问于 2022-04-19 14:08:07
回答 1查看 69关注 0票数 0

我们有一个相对“简单”的业务项目:数字化一些合同扫描(PDF文件)与OCR和从文本中提取实体。

实体可以是一些简单的东西,如合同某一分节中的具体价格,也可以是某一过程的一般定义,例如在第5节附近的某个地方,对于同一实体,不同的表述和语言在不同的合同中交替使用。

我们有有限数量的例子(每个实体10到20个)来开发提取算法。

考虑到目前每个实体的特定性质,我们创建了许多函数,这些函数作用于amazon-textract从PDF中提取的字符串,并使用regex规则,并对结果进行一些额外的修改,以获得我们需要的东西。

这是目前为止获得即时结果的最佳解决方案,但如果某些东西不起作用,则很难修改。此外,为了提高结果,只有了解代码的人才能干预和修改代码,方法是在regex规则中引入一个新的or。这仍然是相当恼人的,因为我们必须回到代码,看看哪里不工作。当然,这远非理想。

我考虑过使用命名实体识别(NER)模型,该模型由用户输入,用户可以直接突出显示文本中的实体,但考虑到有限的训练集,是否可以使用类似的方法?我的印象是,要有一个一致的模型,每个实体至少需要100个例子。

有什么更聪明的选择来使用regex吗?或者你怎么认为我们的输油管道可以改进?

EN

回答 1

Stack Overflow用户

发布于 2022-04-28 15:44:54

警告-哈基的方式!!

将数据集注释复制到100,因为这是AWS的限制。创建一个CSV文件,并提供给它以提取。训练模型

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71926366

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档