文章/答案/技术大牛

发布

社区首页 >问答首页 >基于图像数据集的探索性数据分析

问基于图像数据集的探索性数据分析
EN

Data Science用户

提问于 2018-03-18 17:27:08

回答 4查看 12K关注 0票数 9

在Kaggle上的机器学习内核中，我经常看到带有结构化数据的EDAs。因此，我想知道，是否有任何推荐的/标准的程序EDA与图像数据集。你做了什么样的统计分析，你画了什么样的图，你有什么目标？

machine-learning

python

neural-network

computer-vision

回答 4

Data Science用户

发布于 2018-03-20 19:04:41

看看HASYv2 2数据集。我试着做尽可能多的探索性工作，以确保其他人能够直接使用数据集来尝试更有趣的事情。

图像格式特定的

(最小/中位数/平均数/最大值)(宽度/高度/面积)
图像格式
时间戳
Exiff元数据

对于这类东西，您可能想看看edapy。

图像/ML特定素材

你可以用图像做的事情：

计算平均图像
- 按类别平均图像
特征面 (或者更确切地说是“特征图像”)
费舍尔脸

您可以计算像素的相关性，例如图3：

分类-特定的东西

绘制类的分布图。
标准分类算法(CNN，VGG-16)的性能
混淆矩阵排序 (第48-52页，特别是图5.12和5.13)：查找类似的类

票数 3

Data Science用户

发布于 2018-06-19 05:51:28

由于我们讨论的是视觉数据，我建议对类似图像进行图像特征的聚类，例如，如果其相机图像模型在imagenet上进行训练，如果它的CG (计算机生成的图像，例如卡通片)是在相似数据集上训练的模型，并执行the可视化，并对集群进行可视化检查。这可以是对图像数据集执行EDA的一种方法。

图像数据集上Image的示例图像：链接

票数 2

Data Science用户

发布于 2020-09-02 12:33:46

基于CV模型的EDA方法有很多种方法，因为CV模型能够解决的问题有很多维度。我想把第一步分为两类：

注释度量:您的数据集中的类的分布是什么？哪些类代表过高，哪些类代表不足？类的所有实例是否在数据集中共享相同的位置和方向，还是它们是不同的？这类EDA通常看起来像数据集中类的直方图或饼图(下面是显示Coco 2017数据集中类的饼图)；这样就可以很容易地看到哪些类与它们在字段中出现的情况不一致。一旦你知道了这个问题的答案，你就可以收集更多的数据或者补充你所拥有的。

图像度量:你在训练你的模型是什么样的图像？这些图像(亮度、尺寸、分辨率)的条件与你在战场上得到的一样吗？对于更经典的计算机视觉度量，EDA看起来可能像散点图、条形图，或者实际上是用于通用EDA的任何可视化技术，因为图像度量可以归结为数字，就像任何其他统计数据一样。图像度量是相当标准的，因为计算机视觉已经存在的时间远远超过了花哨的ML技术。下面是Coco 2017数据集中蓝色通道像素值散点图的一个例子--可以清楚地看到大多数图像聚集在哪里，以及异常点在哪里。

用于计算机视觉的EDA就像其他领域的EDA一样--在深入EDA之前，最困难的部分是理解图像处理和注释所特有的指标。一旦您对这两个分析分支有了很好的理解，就更容易将经典的EDA技术应用于大型图像和注释数据集。关于简历应用程序的EDA，请看一下我为工作写的这个博客。EDA是如此强大，因为它可以帮助生成可操作的洞察力，从而使最终解决方案在部署后更加健壮。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/29223

复制

相似问题

问基于图像数据集的探索性数据分析
EN

回答 4

Data Science用户

图像格式特定的

图像/ML特定素材

分类-特定的东西

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于图像数据集的探索性数据分析EN

回答 4

Data Science用户

图像格式特定的

图像/ML特定素材

分类-特定的东西

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于图像数据集的探索性数据分析
EN