首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文档理解是从UiPath中所有pdf页面中提取数据。

文档理解是从UiPath中所有pdf页面中提取数据。
EN

Stack Overflow用户
提问于 2022-03-08 14:01:03
回答 1查看 653关注 0票数 1

我正在使用文档理解UiPath从多个pdf文件中提取数据。每个pdf文件包含同一页的多份副本,我无法删除。的问题是:

1.) Regex正在从中提取数据--文件的所有页面。我只想要数据从的第一页的pdf。

2.) --它也是提取它下面的其他无关数据--以及所需的数据。

I无法从pdf文件中删除重复的页面。因此,我不能使用ML抽取器,因为它的限制为2页和4mb大小的。目前,我正在使用表单抽取器和Regex 来提取数据,它们都是从中提取数据,所有页面都是文件。

另外,对于某些数据,它还将提取其他无关数据(仅当我使用Regex .时才会发生这种情况)。我如何解决这两个问题?

任何帮助都是非常感谢的!

EN

回答 1

Stack Overflow用户

发布于 2022-03-11 10:26:31

我建议使用智能表单抽取器,但请注意,这对社区许可证有限制;因此,请遵循下面的结构。

extract)

  • Digitize加载分类法(将相关字段配置为文档--如OmniPage OCR或Microsoft
  1. 分类文档范围)。指定一个基于关键字的分类器并配置
  2. 数据提取范围--使用智能表单抽取器。您可以设置模板,并使用元素、选定区域或锚指定要从中提取数据的位置。您需要从Orchestrator租户(请参阅Licenses)
  3. (Optional步骤)验证站获得API密钥--您可以添加验证站,当用户的信心不符合要求时,验证站本质上会请求验证。您可以使用本地版本或使用“”,这将在Orchestrator上创建一个操作。(请注意-对于创建操作,您需要将其基于“Main.xaml”,因为它是一个持久的Main.xaml提取结果

您可能希望在数字化之前拆分您的PDF,这样您只需要查看第1页,并且在需要时随时可以合并回

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71396295

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档