首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Tesseract引擎的Tessnet2 --为什么它的输出很差?

使用Tesseract引擎的Tessnet2 --为什么它的输出很差?
EN

Stack Overflow用户
提问于 2015-01-03 11:36:10
回答 1查看 6.4K关注 0票数 5

我正在尝试使用Tessnet2在C#中使用Tesseract引擎。对于我提供给Tessnet2的许多测试映像,输出都是非常糟糕的,而且几乎没有什么是正确的。

这是我在C#控制台项目Program.cs类中的代码:

代码语言:javascript
复制
 static void Main(string[] args)
    {
        try
        {
        Bitmap image = new Bitmap(@"C:\Users\hp\Desktop\eurotext.tif");
        var ocr = new Tesseract();

        //when I tried to add the SetVariable(...), it didn't change the output much

        ocr.Init(@"C:\Program Files (x86)\Tesseract-OCR", "eng", true);

        var result = ocr.DoOCR(image, Rectangle.Empty);
        foreach (Word word in result)
            Console.WriteLine("{0} : {1}", word.Confidence, word.Text);

        Console.ReadLine();
    }
    catch (Exception exception)
    {
        Console.WriteLine("Error");
    }
}

例如,这是一个示例(大型二进制300 dpi)测试映像"eurotext.tif":

这是这个图像的Tessnet2输出:

我一直在使用这个网站来学习使用Tessnet2:https://code.msdn.microsoft.com/windowsdesktop/How-to-use-Tessnet2-library-716be12f的步骤

我使用这个网站试图正确地使用SetVariable(.)函数来实现我想做的事情,但是没有运气,输出也没有太大差别:http://www.sk-spell.sk.cx/tesseract-ocr-en

我找到了旨在减少引擎错误的Tesseract指南:http://code.google.com/p/tesseract-ocr/wiki/ImproveQuality

  • 它说,"Tesseract对使用DPI至少300 dpi的文本效果最好“。这个样本图像是300 dpi。
  • 这个示例图像也是二进制的,它应该提供一个更好的输出,正如许多人在不同的网站上建议的那样。

我到处寻找一个能提高准确性的解决方案,我发现很多帖子和人都有类似的问题,但没有有效的解决方案。

造成这个问题的原因是什么?我该怎么解决呢?

我是这个话题的初学者,所以如果解决方案太过琐碎,请耐心等待。

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-02-06 18:11:51

要使文本显示,您必须更改:

代码语言:javascript
复制
ocr.Init(@"C:\Program Files (x86)\Tesseract-OCR", "eng", true);

至:

代码语言:javascript
复制
ocr.Init(@"C:\Program Files (x86)\Tesseract-OCR", "eng", false);
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27754392

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档