首页
学习
活动
专区
圈层
工具
发布

Ad字典
EN

Stack Overflow用户
提问于 2014-07-30 21:17:22
回答 1查看 138关注 0票数 1

我目前正在使用Finereader 11 SDK进行一个小项目。为了提高我的成绩,我喜欢使用一本特别词典。词典的内容是基于某一行的第一个词。

示例:

代码语言:javascript
复制
Samsung Galaxy S3 ... many other word in this line
Apple Iphone 4 ... much more words
some more lines

我的想法是重新定义第一个单词(三星或苹果),并在字典中填写所有可能的单词,这些词都是基于第一个单词(三星: Galaxy,S3,.)

知道如何用Finereader解决这个问题吗?

问候

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-08-06 06:01:52

谢谢你的澄清。在我看来,这就是你能做的。这适用于FineReader产品线,当然,在SDK中,您可以通过API进行更具体的控制。

FineReader OCR有以下字典:

  • 内置词典-大量的通用词集及其变体,ABBYY OCR技术的优势之一。它不包含专门的词,例如“三星”和"S3“。通过选择流行语言,您将自动打开该语言的内置字典。
  • 自定义字典-这是一个字典,你可以建立,单独使用,或与内置词典。

所以对于你的项目,我认为使用内置词典是有意义的,因为你的短语可能有标准的英语单词(你没有提供完整的短语给我看,所以自己决定吧)。

我也坚信,如果你有这样的选择,而且听起来像你做的那样,你需要创建一个有品牌和型号等的定制词典。它将大大提高识别能力,特别是对于"S3“这样的非自然单词,因为通用语言规则表明字母和数字不应该混在一起。这是很容易做到的。

我现在看不出用一个单独的字典阅读每一行的好处,除非你相信你会有一个适用于不同行的非常相似的单词的交集,而且你会希望这些词放在单独的字典中,并且相对于每一行。然后,您可以创建单独的字典,并打开每个字典,以便根据初始单词进行二次识别。然而,要实现这一点,您需要首先将行分离成行(在内存中,或者实际上是裁剪图像),以便能够使用唯一的字典分别处理每一行。这是可能的,只有在SDK与大量的工作量。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25047110

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档