首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于tesseract或puma.net的文本识别图像预处理

基于tesseract或puma.net的文本识别图像预处理
EN

Stack Overflow用户
提问于 2014-08-27 04:10:18
回答 1查看 1.6K关注 0票数 0

如何使用OpenCVdotnet对图像进行预处理,以便更好地识别文本?我试过tesseract包装器和Puma.NET,但是我的结果更糟.我怎样才能提高成绩?

代码语言:javascript
复制
            #region Tesseract
                Bitmap pictureInfoArea = src.ToBitmap();
                        TesseractEngine engine = new TesseractEngine("tessdata/", "rus", EngineMode.Default);
                        //engine.SetVariable("tessedit_char_whitelist", "0123456789");
                        var page = engine.Process(pictureInfoArea, PageSegMode.Auto);

                        string sTesseract = page.GetText();

        #endregion
        #region Puma.NET
                        PumaPage pumaInfoArea = new PumaPage(pictureInfoArea);

                        using (pumaInfoArea)
                        {
                            // Changing default settings
                            pumaInfoArea.FileFormat = PumaFileFormat.TxtAnsi;
                            pumaInfoArea.EnableSpeller = true;
                            pumaInfoArea.Language = PumaLanguage.Russian;

                            // Recognizing and saving results to a file
                            string sPuma = pumaInfoArea.RecognizeToString();

                            //MessageBox.Show(s);
                        }
    #endregion
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-09-11 13:36:42

这里是一个教程,解释如何训练你自己的语言。我建议您在应用字母分离算法之后安装jTessBoxeditor,这有助于您很好地训练您的模式。jTessBoxeditor有一个GUI界面,允许您训练自己的数据集。

这里你还有另一个教程来训练Tesseract3学习一种新的语言。

看看这个(我没有测试过) sunnypage.ge/en Tesseract-FineReader-report.pdf

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25518788

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档