在Kaggle上的机器学习内核中,我经常看到带有结构化数据的EDAs。因此,我想知道,是否有任何推荐的/标准的程序EDA与图像数据集。你做了什么样的统计分析,你画了什么样的图,你有什么目标?
发布于 2018-03-20 19:04:41
发布于 2018-06-19 05:51:28
由于我们讨论的是视觉数据,我建议对类似图像进行图像特征的聚类,例如,如果其相机图像模型在imagenet上进行训练,如果它的CG (计算机生成的图像,例如卡通片)是在相似数据集上训练的模型,并执行the可视化,并对集群进行可视化检查。这可以是对图像数据集执行EDA的一种方法。
图像数据集上Image的示例图像:链接
发布于 2020-09-02 12:33:46
基于CV模型的EDA方法有很多种方法,因为CV模型能够解决的问题有很多维度。我想把第一步分为两类:
注释度量:您的数据集中的类的分布是什么?哪些类代表过高,哪些类代表不足?类的所有实例是否在数据集中共享相同的位置和方向,还是它们是不同的?这类EDA通常看起来像数据集中类的直方图或饼图(下面是显示Coco 2017数据集中类的饼图);这样就可以很容易地看到哪些类与它们在字段中出现的情况不一致。一旦你知道了这个问题的答案,你就可以收集更多的数据或者补充你所拥有的。

图像度量:你在训练你的模型是什么样的图像?这些图像(亮度、尺寸、分辨率)的条件与你在战场上得到的一样吗?对于更经典的计算机视觉度量,EDA看起来可能像散点图、条形图,或者实际上是用于通用EDA的任何可视化技术,因为图像度量可以归结为数字,就像任何其他统计数据一样。图像度量是相当标准的,因为计算机视觉已经存在的时间远远超过了花哨的ML技术。下面是Coco 2017数据集中蓝色通道像素值散点图的一个例子--可以清楚地看到大多数图像聚集在哪里,以及异常点在哪里。

用于计算机视觉的EDA就像其他领域的EDA一样--在深入EDA之前,最困难的部分是理解图像处理和注释所特有的指标。一旦您对这两个分析分支有了很好的理解,就更容易将经典的EDA技术应用于大型图像和注释数据集。关于简历应用程序的EDA,请看一下我为工作写的这个博客。EDA是如此强大,因为它可以帮助生成可操作的洞察力,从而使最终解决方案在部署后更加健壮。
https://datascience.stackexchange.com/questions/29223
复制相似问题