首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >OpenText DokuStar捕获中心提取增强

OpenText DokuStar捕获中心提取增强
EN

Stack Overflow用户
提问于 2012-12-07 22:33:38
回答 1查看 1.9K关注 0票数 0

由于在OpenText捕获中心内几乎没有关于编程的文档或代码片段。我需要一些有经验的人的意见。

这是我需要的关键..。在脚本管理器中,我需要能够访问OCR在文档中标识的所有短语对象,而不管提取过程中匹配或标识的字段。

只要我能够访问OCR短语,我就可以做两件事,这将大大提高我们在任何领域的匹配百分比。

  1. 在匹配发生之前,将发票短语作为一种预处理形式进行卫生和转换(即将公司转变为公司,删除撇号等)
  2. 编写一个自定义匹配函数,它比本机通用SnapMatch更能理解我们的数据。

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-02-05 21:33:29

好的,最终没有办法通过脚本管理器入口点来做到这一点。原因是所有的图像数据都是在进入脚本管理器之前被解析和提取的。当您到达管理器的提取阶段时,您已经有了一个XML运行时文档,该文档表示输出文档的元结构,其中包含在输入前提取“认为可能有用”的数据。提取的所有其他可能的“短语”和其他数据类型都被“丢弃”,而这些数据类型并不适合某个字段或其他选项。这意味着供应商的名字或类似的DoKuStar没有发现有趣的东西,仍然不能用任何代码机制搜索。

我需要解决的问题非常特定于我的特定领域,并且是由Oracle组的策略间接造成的。供应商的名字被剥夺了特殊的字符并连接在一起。基本上,它们只是不匹配发票上的内容,因此快速匹配实际上是无用的。

我创建了一个中间解决方案,用户可以直接更新本地SnapMatch数据库,也就是说“重命名供应商”。因此,我们的本地SnapMatch数据库在更正时将与发票上的内容相匹配,即使Oracle数据库没有这样做。总而言之,这并不是编码方面的具体解决方案,但它是解决域问题的有效方法。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13772088

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档