可以从下面给定的图像生成一组特定的字体吗?
我的想法是为下面给定的文本图像生成一个特定的字体,方法是手动选择图像的一部分,并将其映射到一组字母‘。另外,请推荐任何好的OCR。

发布于 2010-11-20 23:19:36
Abbyy FineReader 10的结果比预期的要好,但可以预见的是,当字符接触时会感到困惑。
你的问题是行距太小了。每行的下划线与直线下的字符的字符边框重叠。这使得字符切分几乎不可能,因为字符是接触和重叠的。重叠字符的组合数量实际上是不可能训练的。“g”和“y”的角色是最坏的。
双行线间距的版本可能会相当好的OCR。
一个自定义的解决方案,分割和分隔每一行,连同一个好的字典,肯定会改善结果。不过,仍然会有一些错误需要手动纠正。自定义程序必须处理上升和下降,并试图将图像分割成线,然后可以提供给一个像样的OCR引擎。一种方法是分析页面上的每个字符blob并将其分配到一行。Leptonica (www.leptonica.com -C成像库)可能会使这项工作变得容易一些。
如果不首先将分辨率提高到200或300 dpi,我就不会尝试这样做。
使用此自定义解决方案,如果OCR引擎最初的工作很糟糕,则训练字体成为一种选择。
Abbyy (www.abbyy.com)或Google 3.00将是一个很好的起点。
然而,对于这一切是否会奏效,没有任何保证。对于OCR来说,这是一个相当困难的页面,您需要弄清楚是否最好在海外手动输入。这取决于需要处理的页面数。
https://stackoverflow.com/questions/4232152
复制相似问题