由于在OpenText捕获中心内几乎没有关于编程的文档或代码片段。我需要一些有经验的人的意见。
这是我需要的关键..。在脚本管理器中,我需要能够访问OCR在文档中标识的所有短语对象,而不管提取过程中匹配或标识的字段。
只要我能够访问OCR短语,我就可以做两件事,这将大大提高我们在任何领域的匹配百分比。
谢谢!
发布于 2013-02-05 21:33:29
好的,最终没有办法通过脚本管理器入口点来做到这一点。原因是所有的图像数据都是在进入脚本管理器之前被解析和提取的。当您到达管理器的提取阶段时,您已经有了一个XML运行时文档,该文档表示输出文档的元结构,其中包含在输入前提取“认为可能有用”的数据。提取的所有其他可能的“短语”和其他数据类型都被“丢弃”,而这些数据类型并不适合某个字段或其他选项。这意味着供应商的名字或类似的DoKuStar没有发现有趣的东西,仍然不能用任何代码机制搜索。
我需要解决的问题非常特定于我的特定领域,并且是由Oracle组的策略间接造成的。供应商的名字被剥夺了特殊的字符并连接在一起。基本上,它们只是不匹配发票上的内容,因此快速匹配实际上是无用的。
我创建了一个中间解决方案,用户可以直接更新本地SnapMatch数据库,也就是说“重命名供应商”。因此,我们的本地SnapMatch数据库在更正时将与发票上的内容相匹配,即使Oracle数据库没有这样做。总而言之,这并不是编码方面的具体解决方案,但它是解决域问题的有效方法。
https://stackoverflow.com/questions/13772088
复制相似问题