我有电脑游戏的视频。在这个电脑游戏中,在游戏中,有一个聊天室,玩家可以写消息。我想读一下这个chatbox的内容。

困难在于:
起初,我想我会把这个问题分解成几个步骤。
但我觉得这很复杂。直接用目标检测做2,3,4会更好吗?所以就像这样:
在给10.000张图片贴上标签之前,我想问一下什么是正确的方法。
非常感谢!
发布于 2022-09-05 10:15:37
是的,这似乎是正确的一般方法,然而,我建议减少小块,以便非常有效。
首先,你应该确保最重要的功能,文本识别,工作良好:如果你做了良好的区域检测和良好的屏幕识别,但你没有良好的文本识别,你就会浪费时间。此外,总是有技巧,以获得正确的区域和正确的框架,但拥有可靠的文本识别更为复杂。
这就是为什么我会开始训练文本识别功能已经被剪掉的文本区域。目的是要取得很好的结果。Tesseract可能是这样做的最好的图书馆。然而,背景是一幅图像,因此检查文本识别是否正确是非常重要的。
除此之外,我建议从200张随机图片开始,而不是10,000张。通常,您可以在不需要处理整个数据的情况下,使用第一个小样本进行更正,从而发现许多错误。然后,您将逐步增加数量,因为总是有意想不到的特殊情况(例如:文本背景中包含文本的生命栏)。
应用对象检测来获取底部菜单坐标可能很有趣,因为文本位置可能与屏幕分辨率不同。但是,考虑窗口大小和将菜单底部的位置看作大小百分比甚至是很简单的。还要考虑各种用户设置(例如:删除底部菜单、更改背景透明度等)。
https://datascience.stackexchange.com/questions/114091
复制相似问题