计算机视觉中一个具有挑战性的主题是处理文档扫描。通常,这涉及许多步骤,如噪声去除、颜色分析、二值化、文本块识别、OCR,然后可能还会进行一些上下文分析和校正。
我很好奇,有没有人能理解,知道或者能告诉我Google在OCR阶段之前是如何识别文本块的。有什么见解吗?
发布于 2009-05-25 00:44:40
我相信谷歌将Tesseract OCR引擎与另一个名为Ocropus的工具结合使用,这两个工具都是开源的。我对它们是如何工作的一无所知,但您可能有兴趣查看上面的链接中提供的代码。
发布于 2009-01-15 05:33:29
这是我的图书馆数字化专家提供的二手信息,但谷歌的方法似乎是通过自动化过程丢弃一切,ocr任何看起来像文本的东西,不要太在意裁剪单个图像或做太多语义分析来查找图像标题等。他们可能在做一些不明显的微妙事情,但从表面上看,他们肯定是在追求数量而不是质量,这对他们来说是明智的,为了他们的目的,IMO。
https://stackoverflow.com/questions/445733
复制相似问题