我会用南瓜分类的例子。以灰姑娘南瓜为例

对葫芦南瓜

直观地说,将这些图像归类为两种不同的输出( cinderella-pumpkin和gourd-pumpkin )似乎是明智的,因为它们的外观有多么不同。
我的问题是,如果我对灰姑娘南瓜和葫芦南瓜进行了一组培训,并将它们归为pumpkin类别,那么网络的性能会比我把它们分成两类更糟糕吗?当两个对象如此不同,以至于它们应该被放入不同的类别时,它们的阈值是什么?
或者,为了清晰起见,举一个更极端的例子,如果我拍下猫和菠萝的照片,并将它们归为同一类别,那么如果一个人创建了一个cat输出和一个pineapple输出,那么网络在对各个对象进行分类时会受到怎样的影响呢?
发布于 2016-02-08 21:33:13
这取决于你的训练观察结果的内在相似性。我没有设置阈值:我使用power迭代聚类(或其他无监督的分类)来指导我在培训数据中有重要的划分。K-均值也是一个流行的选择,因为它是一个常见的实现,并且相对容易理解。
另一个考虑因素是“非南瓜”数据的相似性,比如篮球(与灰姑娘相比)。再一次,我采用无监督的学习方法。在这种情况下,我预计篮球会比葫芦更接近灰姑娘。这建议对南瓜类型进行单独的分类--或者在图像处理中进行更多的特征检测,以发现南瓜品种之间的相似之处。
这有用吗?
https://stackoverflow.com/questions/35267122
复制相似问题