首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >快速屏幕字体OCR技术还是API?

快速屏幕字体OCR技术还是API?
EN

Stack Overflow用户
提问于 2011-06-30 03:26:20
回答 2查看 1.3K关注 0票数 3

我想知道是否有任何技术/API可以用于快速屏幕字体OCR?

以下是理所当然的:

OCR的文本应来自屏幕截图,并应使用屏幕字体

  • 呈现,文本可以或不使用RGB抽取(也可以或不使用RGB抽取(又称亚像素AA aka ClearType等)

  • ,屏幕快照可能是RGB或RBG顺序

  • ,基线查找很简单(只需查看所有屏幕字体:基线显示非常清楚,并且很容易找到algorithmically)

  • a ),允许许多错误(字符识别不需要100 )。

  • 字体基本上是预先知道的,但是字体的具体呈现方式不是(大小不知道,颜色未知,抗混叠类型未知)。基本上我们知道的是,它将是非常常见的字体,

因此,我认为这并不像做“真实的”OCR那样复杂:找到基线和“裁剪”每个字符非常容易(我已经做过了)。

有没有人知道特定的技术,纸张,甚至API,允许做这样的壮举?

注意:这个问题是而不是关于屏幕抓取的。这个问题是而不是关于破坏CAPTCHA的问题。这个问题是而不是关于普通OCR的(就像OCRing中的扫描文本)。这个问题是,而不是关于GUI自动化的(尽管有些人可能以这种方式使用它)。

EN

回答 2

Stack Overflow用户

发布于 2011-06-30 09:10:20

我对不变矩有很好的经验(例如Hu矩,但它们对于特征提取和聚类分析(我在Mahalanobis距离上获得了很好的结果)来说可能对您的目的来说太小了,因为您有预定义的方向)。

如果您对纯java解决方案感兴趣,下面是我们的SF项目:

http://sourceforge.net/projects/javaocr/

这也适用于android手机。

(欢迎帮助)

票数 1
EN

Stack Overflow用户

发布于 2014-09-04 09:56:01

您可以尝试实现LAMSTAR,如Daniel Graupe的“人工神经网络原理”(1997)第13章所述。

它基本上包括:

将您的“输入”划分为“子单词”(他以像素序列细分图像的例子,每列一个子词和一行一个子词)每个子词都被输入到一个动态的KSOM (Kohonen自组织映射)中,该动态KSOM将归一化的子词分类为不同数量的categories

  • Each KSOM,所有分类器都是赢家--所有分类器都得到1,对于所有其他的

  • ,输出与“到输出层的链接权重”线性组合,具有一个非线性激活函数(例如逻辑函数),输出神经元的兴奋给出了一个代表识别字符的位序列。

LAMSTAR的优点是所有的东西都是可追踪的:

  • 您可以通过考虑输入来知道NN看到了什么,
  • ,通过观察KSOM的分类结果,您可以知道NN认为它看到了什么。通过考虑特定KSOMs
  • 的权重向量,可以知道NN想要看到什么。通过比较链接权重,可以知道NN真正认为什么很重要(以及忽略图像的哪些部分)。

F 219

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6529646

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档