文章/答案/技术大牛

发布

社区首页 >问答首页 >文档理解是从UiPath中所有pdf页面中提取数据。

问文档理解是从UiPath中所有pdf页面中提取数据。
EN

Stack Overflow用户

提问于 2022-03-08 14:01:03

回答 1查看 653关注 0票数 1

我正在使用文档理解UiPath从多个pdf文件中提取数据。每个pdf文件包含同一页的多份副本，我无法删除。的问题是：

1.) Regex正在从中提取数据--文件的所有页面。我只想要数据从的第一页的pdf。

2.) --它也是提取它下面的其他无关数据--以及所需的数据。

I无法从pdf文件中删除重复的页面。因此，我不能使用ML抽取器，因为它的限制为2页和4mb大小的。目前，我正在使用表单抽取器和Regex 来提取数据，它们都是从中提取数据，所有页面都是文件。

另外，对于某些数据，它还将提取其他无关数据(仅当我使用Regex .时才会发生这种情况)。我如何解决这两个问题？

任何帮助都是非常感谢的！

data-extraction

uipath

rpa

uipath-studio

pdf-extraction

回答 1

Stack Overflow用户

发布于 2022-03-11 10:26:31

我建议使用智能表单抽取器，但请注意，这对社区许可证有限制；因此，请遵循下面的结构。

extract)

Digitize加载分类法(将相关字段配置为文档--如OmniPage OCR或Microsoft

分类文档范围)。指定一个基于关键字的分类器并配置
数据提取范围--使用智能表单抽取器。您可以设置模板，并使用元素、选定区域或锚指定要从中提取数据的位置。您需要从Orchestrator租户(请参阅Licenses)
(Optional步骤)验证站获得API密钥--您可以添加验证站，当用户的信心不符合要求时，验证站本质上会请求验证。您可以使用本地版本或使用“”，这将在Orchestrator上创建一个操作。(请注意-对于创建操作，您需要将其基于“Main.xaml”，因为它是一个持久的Main.xaml提取结果

您可能希望在数字化之前拆分您的PDF，这样您只需要查看第1页，并且在需要时随时可以合并回

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71396295

复制

相似问题

问文档理解是从UiPath中所有pdf页面中提取数据。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文档理解是从UiPath中所有pdf页面中提取数据。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文档理解是从UiPath中所有pdf页面中提取数据。
EN