文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么Tesseract OCR使用Otsu二值化？

问为什么Tesseract OCR使用Otsu二值化？
EN

Stack Overflow用户

提问于 2019-06-24 14:08:30

回答 2查看 719关注 0票数 4

为什么Tesseract OCR引擎使用全局阈值技术，如Otsu二值化？不是局部阈值技术(例如Sauvola、Niblack等)更有效地从图像中删除文本？

ocr

tesseract

image-thresholding

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-06-25 01:17:55

Tesseract在Google book项目和AFAIK中使用，他们运行最佳二值化测试，而Otsu是最通用的。如果Otsu不适合您的情况，您可以在将图像发送到tesseract之前使用其他二值化算法。

票数 1

Stack Overflow用户

发布于 2019-06-25 03:39:50

基本上，根据输入图像，我们需要选择要使用的阈值算法。Tesseract使用Otsu方法进行阈值处理，因为通常情况下，Tesseract用于提取文本的输入具有图像同质性。Otsu方法对于这样的图像是有效的，也是足够好的。

当背景没有表现出相对于前景(目标)强度的局部变化时，全局阈值方法是有用和足够好的。而当背景与目标的灰度差发生局部变化时，需要进行局部阈值分割。

因此，虽然Tesseract确实使用Otsu方法(全局阈值)进行二值化，但您可以使用局部阈值方法对图像进行预处理，以从Tesseract获得更好的输出。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56730672

复制

相似问题

问为什么Tesseract OCR使用Otsu二值化？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么Tesseract OCR使用Otsu二值化？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么Tesseract OCR使用Otsu二值化？
EN