所以我一直在阅读使用TensorFlow和Keras的机器学习,我尝试使用一些自定义图像建立一个数据集,并尝试学习脚本来识别文本,同时过滤掉噪声,但问题是噪声颜色是相同的,文本颜色会导致过滤掉所有的东西。
我不是要被调羹,我只是想要指向解决/训练脚本来解决图像上文本的最佳方法的指针。
我要找的是让脚本在屏幕上读取,并计算隐藏在图像中的单词,并在命令行中打印结果。
没有示例代码,因为以前的一切都是失败的,而不是我所寻找的.。
发布于 2019-12-24 02:49:27
在你开始你的项目之前,你应该检查你的数据的“质量”,它对于实时应用程序或你的项目来说是有价值的,如果图像不易被人类读取,那么用这种数据进行训练是有点错误的,因为人类往往非常善于视觉识别事物,而且很多时候,“偏倚错误”是根据这一点而采取的。
如果您是将瞄准从图像中读取有噪声的文本,您可以尝试以下技巧: prof.Andrew Ng的在线课程“改进深度神经网络:超参数调整、正则化和优化”:
1-将你的数据训练在正常和清晰的文本图像上,因为这将让你的算法从清晰的图像中学习很多特征和初始特性,比如字母的形状,有时你可能会对结果感到惊讶。
2-让您的DEV集(和您的测试集)包含大量有噪声的文本图像,这样您就可以检查算法在您真正关心的数据( AIM)上的实际表现。
3.改变数据集可能有点困难,但如果噪音以一种即使是对人类来说也很难读的方式使它成为人类的一部分,那么这个数据集可能也是无用的。(并不总是)这样你就可以把清晰的图像和噪声图像(从旧的数据中生成一个新的数据集)混合在一起,这样它就能保持真实,而不是太多的机器人,然后根据你的新数据来训练算法。
构建一个好的ML算法或应用程序首先取决于您的数据,而这些只是一些符号,可以帮助您以另一种方式思考问题。
发布于 2020-01-11 19:04:10
( A)您可以尝试的一件事是获取明文图像的数据,通过在图像中添加人工噪声来训练GAN或类似的网络,并将其作为输入来训练其去噪,通过该网络传递图像,然后将其传递给文本检测器/ocr引擎(如pytesseract或google vision ocr)。
( B)在可能的字符集(如YOLO或FasterRCNN)上设置图像检测器,添加噪声,您可以再次这样做,人为地将噪声添加到数据中,但可能需要人工注释。
( C)您可以尝试类似这的方法,方法是检查所有字母/已知字符的图像,然后组合结果。我个人更喜欢这个。
PS。我还没有完全读到用C链接的文件,但是你链接的图像似乎更接近于用一次镜头分割方法来解决,而不是训练一个GAN。
PPS.Based在您的问题下评论,确保创建一个captcha解决机器人不违反使用该网站的任何法律条件(我觉得有义务说这是出于某种原因)。
https://stackoverflow.com/questions/59462922
复制相似问题