文章/答案/技术大牛

发布

社区首页 >问答首页 >OpenText DokuStar捕获中心提取增强

问OpenText DokuStar捕获中心提取增强
EN

Stack Overflow用户

提问于 2012-12-07 22:33:38

回答 1查看 1.9K关注 0票数 0

由于在OpenText捕获中心内几乎没有关于编程的文档或代码片段。我需要一些有经验的人的意见。

这是我需要的关键..。在脚本管理器中，我需要能够访问OCR在文档中标识的所有短语对象，而不管提取过程中匹配或标识的字段。

只要我能够访问OCR短语，我就可以做两件事，这将大大提高我们在任何领域的匹配百分比。

在匹配发生之前，将发票短语作为一种预处理形式进行卫生和转换(即将公司转变为公司，删除撇号等)
编写一个自定义匹配函数，它比本机通用SnapMatch更能理解我们的数据。

谢谢!

extraction

image-capture

opentext

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-02-05 21:33:29

好的，最终没有办法通过脚本管理器入口点来做到这一点。原因是所有的图像数据都是在进入脚本管理器之前被解析和提取的。当您到达管理器的提取阶段时，您已经有了一个XML运行时文档，该文档表示输出文档的元结构，其中包含在输入前提取“认为可能有用”的数据。提取的所有其他可能的“短语”和其他数据类型都被“丢弃”，而这些数据类型并不适合某个字段或其他选项。这意味着供应商的名字或类似的DoKuStar没有发现有趣的东西，仍然不能用任何代码机制搜索。

我需要解决的问题非常特定于我的特定领域，并且是由Oracle组的策略间接造成的。供应商的名字被剥夺了特殊的字符并连接在一起。基本上，它们只是不匹配发票上的内容，因此快速匹配实际上是无用的。

我创建了一个中间解决方案，用户可以直接更新本地SnapMatch数据库，也就是说“重命名供应商”。因此，我们的本地SnapMatch数据库在更正时将与发票上的内容相匹配，即使Oracle数据库没有这样做。总而言之，这并不是编码方面的具体解决方案，但它是解决域问题的有效方法。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/13772088

复制

相似问题

问OpenText DokuStar捕获中心提取增强
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问OpenText DokuStar捕获中心提取增强EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问OpenText DokuStar捕获中心提取增强
EN