我们有一个相对“简单”的业务项目:数字化一些合同扫描(PDF文件)与OCR和从文本中提取实体。
实体可以是一些简单的东西,如合同某一分节中的具体价格,也可以是某一过程的一般定义,例如在第5节附近的某个地方,对于同一实体,不同的表述和语言在不同的合同中交替使用。
我们有有限数量的例子(每个实体10到20个)来开发提取算法。
考虑到目前每个实体的特定性质,我们创建了许多函数,这些函数作用于amazon-textract从PDF中提取的字符串,并使用regex规则,并对结果进行一些额外的修改,以获得我们需要的东西。
这是目前为止获得即时结果的最佳解决方案,但如果某些东西不起作用,则很难修改。此外,为了提高结果,只有了解代码的人才能干预和修改代码,方法是在regex规则中引入一个新的or。这仍然是相当恼人的,因为我们必须回到代码,看看哪里不工作。当然,这远非理想。
我考虑过使用命名实体识别(NER)模型,该模型由用户输入,用户可以直接突出显示文本中的实体,但考虑到有限的训练集,是否可以使用类似的方法?我的印象是,要有一个一致的模型,每个实体至少需要100个例子。
有什么更聪明的选择来使用regex吗?或者你怎么认为我们的输油管道可以改进?
发布于 2022-04-28 15:44:54
警告-哈基的方式!!
将数据集注释复制到100,因为这是AWS的限制。创建一个CSV文件,并提供给它以提取。训练模型
https://stackoverflow.com/questions/71926366
复制相似问题