文章/答案/技术大牛

发布

社区首页 >问答首页 >快速屏幕字体OCR技术还是API？

问快速屏幕字体OCR技术还是API？
EN

Stack Overflow用户

提问于 2011-06-30 03:26:20

回答 2查看 1.3K关注 0票数 3

我想知道是否有任何技术/API可以用于快速屏幕字体OCR？

以下是理所当然的：

OCR的文本应来自屏幕截图，并应使用屏幕字体

呈现，文本可以或不使用RGB抽取(也可以或不使用RGB抽取(又称亚像素AA aka ClearType等)

，屏幕快照可能是RGB或RBG顺序

，基线查找很简单(只需查看所有屏幕字体:基线显示非常清楚，并且很容易找到algorithmically)

a )，允许许多错误(字符识别不需要100 )。

字体基本上是预先知道的，但是字体的具体呈现方式不是(大小不知道，颜色未知，抗混叠类型未知)。基本上我们知道的是，它将是非常常见的字体，

，

因此，我认为这并不像做“真实的”OCR那样复杂:找到基线和“裁剪”每个字符非常容易(我已经做过了)。

有没有人知道特定的技术，纸张，甚至API，允许做这样的壮举？

注意:这个问题是而不是关于屏幕抓取的。这个问题是而不是关于破坏CAPTCHA的问题。这个问题是而不是关于普通OCR的(就像OCRing中的扫描文本)。这个问题是，而不是关于GUI自动化的(尽管有些人可能以这种方式使用它)。

ocr

api

fonts

回答 2

Stack Overflow用户

发布于 2011-06-30 09:10:20

我对不变矩有很好的经验(例如Hu矩，但它们对于特征提取和聚类分析(我在Mahalanobis距离上获得了很好的结果)来说可能对您的目的来说太小了，因为您有预定义的方向)。

如果您对纯java解决方案感兴趣，下面是我们的SF项目：

http://sourceforge.net/projects/javaocr/

这也适用于android手机。

(欢迎帮助)

票数 1

Stack Overflow用户

发布于 2014-09-04 09:56:01

您可以尝试实现LAMSTAR，如Daniel Graupe的“人工神经网络原理”(1997)第13章所述。

它基本上包括：

将您的“输入”划分为“子单词”(他以像素序列细分图像的例子，每列一个子词和一行一个子词)每个子词都被输入到一个动态的KSOM (Kohonen自组织映射)中，该动态KSOM将归一化的子词分类为不同数量的categories

Each KSOM，所有分类器都是赢家--所有分类器都得到1，对于所有其他的

，输出与“到输出层的链接权重”线性组合，具有一个非线性激活函数(例如逻辑函数)，输出神经元的兴奋给出了一个代表识别字符的位序列。

LAMSTAR的优点是所有的东西都是可追踪的：

您可以通过考虑输入来知道NN看到了什么，
，通过观察KSOM的分类结果，您可以知道NN认为它看到了什么。通过考虑特定KSOMs
的权重向量，可以知道NN想要看到什么。通过比较链接权重，可以知道NN真正认为什么很重要(以及忽略图像的哪些部分)。

F 219

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6529646

复制

相似问题

问快速屏幕字体OCR技术还是API？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问快速屏幕字体OCR技术还是API？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问快速屏幕字体OCR技术还是API？
EN