首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于图像数据集的探索性数据分析

基于图像数据集的探索性数据分析
EN

Data Science用户
提问于 2018-03-18 17:27:08
回答 4查看 12K关注 0票数 9

在Kaggle上的机器学习内核中,我经常看到带有结构化数据的EDAs。因此,我想知道,是否有任何推荐的/标准的程序EDA与图像数据集。你做了什么样的统计分析,你画了什么样的图,你有什么目标?

EN

回答 4

Data Science用户

发布于 2018-03-20 19:04:41

看看HASYv2 2数据集。我试着做尽可能多的探索性工作,以确保其他人能够直接使用数据集来尝试更有趣的事情。

图像格式特定的

  • (最小/中位数/平均数/最大值)(宽度/高度/面积)
  • 图像格式
  • 时间戳
  • Exiff元数据

对于这类东西,您可能想看看edapy

图像/ML特定素材

你可以用图像做的事情:

  • 计算平均图像
    • 按类别平均图像

  • 特征面 (或者更确切地说是“特征图像”)
  • 费舍尔脸

您可以计算像素的相关性,例如图3

分类-特定的东西

  • 绘制类的分布图。
  • 标准分类算法(CNN,VGG-16)的性能
  • 混淆矩阵排序 (第48-52页,特别是图5.12和5.13):查找类似的类
票数 3
EN

Data Science用户

发布于 2018-06-19 05:51:28

由于我们讨论的是视觉数据,我建议对类似图像进行图像特征的聚类,例如,如果其相机图像模型在imagenet上进行训练,如果它的CG (计算机生成的图像,例如卡通片)是在相似数据集上训练的模型,并执行the可视化,并对集群进行可视化检查。这可以是对图像数据集执行EDA的一种方法。

图像数据集上Image的示例图像:链接

票数 2
EN

Data Science用户

发布于 2020-09-02 12:33:46

基于CV模型的EDA方法有很多种方法,因为CV模型能够解决的问题有很多维度。我想把第一步分为两类:

注释度量:您的数据集中的类的分布是什么?哪些类代表过高,哪些类代表不足?类的所有实例是否在数据集中共享相同的位置和方向,还是它们是不同的?这类EDA通常看起来像数据集中类的直方图或饼图(下面是显示Coco 2017数据集中类的饼图);这样就可以很容易地看到哪些类与它们在字段中出现的情况不一致。一旦你知道了这个问题的答案,你就可以收集更多的数据或者补充你所拥有的。

图像度量:你在训练你的模型是什么样的图像?这些图像(亮度、尺寸、分辨率)的条件与你在战场上得到的一样吗?对于更经典的计算机视觉度量,EDA看起来可能像散点图、条形图,或者实际上是用于通用EDA的任何可视化技术,因为图像度量可以归结为数字,就像任何其他统计数据一样。图像度量是相当标准的,因为计算机视觉已经存在的时间远远超过了花哨的ML技术。下面是Coco 2017数据集中蓝色通道像素值散点图的一个例子--可以清楚地看到大多数图像聚集在哪里,以及异常点在哪里。

用于计算机视觉的EDA就像其他领域的EDA一样--在深入EDA之前,最困难的部分是理解图像处理和注释所特有的指标。一旦您对这两个分析分支有了很好的理解,就更容易将经典的EDA技术应用于大型图像和注释数据集。关于简历应用程序的EDA,请看一下我为工作写的这个博客。EDA是如此强大,因为它可以帮助生成可操作的洞察力,从而使最终解决方案在部署后更加健壮。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/29223

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档