如何使用OpenCVdotnet对图像进行预处理,以便更好地识别文本?我试过tesseract包装器和Puma.NET,但是我的结果更糟.我怎样才能提高成绩?
#region Tesseract
Bitmap pictureInfoArea = src.ToBitmap();
TesseractEngine engine = new TesseractEngine("tessdata/", "rus", EngineMode.Default);
//engine.SetVariable("tessedit_char_whitelist", "0123456789");
var page = engine.Process(pictureInfoArea, PageSegMode.Auto);
string sTesseract = page.GetText();
#endregion
#region Puma.NET
PumaPage pumaInfoArea = new PumaPage(pictureInfoArea);
using (pumaInfoArea)
{
// Changing default settings
pumaInfoArea.FileFormat = PumaFileFormat.TxtAnsi;
pumaInfoArea.EnableSpeller = true;
pumaInfoArea.Language = PumaLanguage.Russian;
// Recognizing and saving results to a file
string sPuma = pumaInfoArea.RecognizeToString();
//MessageBox.Show(s);
}
#endregion发布于 2014-09-11 13:36:42
这里是一个教程,解释如何训练你自己的语言。我建议您在应用字母分离算法之后安装jTessBoxeditor,这有助于您很好地训练您的模式。jTessBoxeditor有一个GUI界面,允许您训练自己的数据集。
或
这里你还有另一个教程来训练Tesseract3学习一种新的语言。
看看这个(我没有测试过) sunnypage.ge/en Tesseract-FineReader-report.pdf
https://stackoverflow.com/questions/25518788
复制相似问题