文章/答案/技术大牛

发布

社区首页 >问答首页 >使用Tesseract引擎的Tessnet2 --为什么它的输出很差？

问使用Tesseract引擎的Tessnet2 --为什么它的输出很差？
EN

Stack Overflow用户

提问于 2015-01-03 11:36:10

回答 1查看 6.4K关注 0票数 5

我正在尝试使用Tessnet2在C#中使用Tesseract引擎。对于我提供给Tessnet2的许多测试映像，输出都是非常糟糕的，而且几乎没有什么是正确的。

这是我在C#控制台项目Program.cs类中的代码：

 static void Main(string[] args)
    {
        try
        {
        Bitmap image = new Bitmap(@"C:\Users\hp\Desktop\eurotext.tif");
        var ocr = new Tesseract();

        //when I tried to add the SetVariable(...), it didn't change the output much

        ocr.Init(@"C:\Program Files (x86)\Tesseract-OCR", "eng", true);

        var result = ocr.DoOCR(image, Rectangle.Empty);
        foreach (Word word in result)
            Console.WriteLine("{0} : {1}", word.Confidence, word.Text);

        Console.ReadLine();
    }
    catch (Exception exception)
    {
        Console.WriteLine("Error");
    }
}

例如，这是一个示例(大型二进制300 dpi)测试映像"eurotext.tif"：

这是这个图像的Tessnet2输出：

我一直在使用这个网站来学习使用Tessnet2：https://code.msdn.microsoft.com/windowsdesktop/How-to-use-Tessnet2-library-716be12f的步骤

我使用这个网站试图正确地使用SetVariable(.)函数来实现我想做的事情，但是没有运气，输出也没有太大差别：http://www.sk-spell.sk.cx/tesseract-ocr-en。

我找到了旨在减少引擎错误的Tesseract指南：http://code.google.com/p/tesseract-ocr/wiki/ImproveQuality

它说，"Tesseract对使用DPI至少300 dpi的文本效果最好“。这个样本图像是300 dpi。
这个示例图像也是二进制的，它应该提供一个更好的输出，正如许多人在不同的网站上建议的那样。

我到处寻找一个能提高准确性的解决方案，我发现很多帖子和人都有类似的问题，但没有有效的解决方案。

造成这个问题的原因是什么？我该怎么解决呢？

我是这个话题的初学者，所以如果解决方案太过琐碎，请耐心等待。

谢谢!

ocr

tesseract

tessnet2

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-02-06 18:11:51

要使文本显示，您必须更改：

ocr.Init(@"C:\Program Files (x86)\Tesseract-OCR", "eng", true);

至：

ocr.Init(@"C:\Program Files (x86)\Tesseract-OCR", "eng", false);

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27754392

复制

相似问题

问使用Tesseract引擎的Tessnet2 --为什么它的输出很差？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Tesseract引擎的Tessnet2 --为什么它的输出很差？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Tesseract引擎的Tessnet2 --为什么它的输出很差？
EN