文章/答案/技术大牛

发布

社区首页 >问答首页 >从简单的正则提取转移到NER？

问从简单的正则提取转移到NER？
EN

Stack Overflow用户

提问于 2022-04-19 14:08:07

回答 1查看 69关注 0票数 0

我们有一个相对“简单”的业务项目:数字化一些合同扫描(PDF文件)与OCR和从文本中提取实体。

实体可以是一些简单的东西，如合同某一分节中的具体价格，也可以是某一过程的一般定义，例如在第5节附近的某个地方，对于同一实体，不同的表述和语言在不同的合同中交替使用。

我们有有限数量的例子(每个实体10到20个)来开发提取算法。

考虑到目前每个实体的特定性质，我们创建了许多函数，这些函数作用于amazon-textract从PDF中提取的字符串，并使用regex规则，并对结果进行一些额外的修改，以获得我们需要的东西。

这是目前为止获得即时结果的最佳解决方案，但如果某些东西不起作用，则很难修改。此外，为了提高结果，只有了解代码的人才能干预和修改代码，方法是在regex规则中引入一个新的or。这仍然是相当恼人的，因为我们必须回到代码，看看哪里不工作。当然，这远非理想。

我考虑过使用命名实体识别(NER)模型，该模型由用户输入，用户可以直接突出显示文本中的实体，但考虑到有限的训练集，是否可以使用类似的方法？我的印象是，要有一个一致的模型，每个实体至少需要100个例子。

有什么更聪明的选择来使用regex吗？或者你怎么认为我们的输油管道可以改进？

named-entity-recognition

amazon-textract

python

amazon-web-services

回答 1

Stack Overflow用户

发布于 2022-04-28 15:44:54

警告-哈基的方式！！

将数据集注释复制到100，因为这是AWS的限制。创建一个CSV文件，并提供给它以提取。训练模型

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71926366

复制

相似问题

问从简单的正则提取转移到NER？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从简单的正则提取转移到NER？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从简单的正则提取转移到NER？
EN