我正在使用文档理解UiPath从多个pdf文件中提取数据。每个pdf文件包含同一页的多份副本,我无法删除。的问题是:
1.) Regex正在从中提取数据--文件的所有页面。我只想要数据从的第一页的pdf。
2.) --它也是提取它下面的其他无关数据--以及所需的数据。
I无法从pdf文件中删除重复的页面。因此,我不能使用ML抽取器,因为它的限制为2页和4mb大小的。目前,我正在使用表单抽取器和Regex 来提取数据,它们都是从中提取数据,所有页面都是文件。
另外,对于某些数据,它还将提取其他无关数据(仅当我使用Regex .时才会发生这种情况)。我如何解决这两个问题?
任何帮助都是非常感谢的!
发布于 2022-03-11 10:26:31
我建议使用智能表单抽取器,但请注意,这对社区许可证有限制;因此,请遵循下面的结构。
extract)
您可能希望在数字化之前拆分您的PDF,这样您只需要查看第1页,并且在需要时随时可以合并回
https://stackoverflow.com/questions/71396295
复制相似问题