我计划使用自动编码器进行特征提取,然后使用潜在向量进行聚类。
我的自动编码器在我的训练集上表现很好(丢失的小图像和重建的图像看起来与输入非常相似),但是在验证集上表现出更低的性能。
不使用验证集而只使用培训集是个好主意吗?既然我能达到很好的性能,提取的向量应该是“好的”特征。
如果我使用新的数据,我将需要重新训练模型,但我应该始终能够达到良好的性能,因为新的数据将非常类似于当前的数据
发布于 2019-07-04 11:34:22
据我所知,如果训练集的性能高于验证集,那么您可能会担心过度适应。
目前,我假设您的验证集只是培训集数据的一小部分。
注意,如果自动编码器在您的验证集上表现不佳,就不太可能在新数据上达到良好的性能,“因为新数据将与当前数据非常相似”,就像在当前数据上已经没有良好的性能一样。
如果每次需要对自动编码器进行重新训练,那么首先使用自动编码器可能是不值得的。
https://datascience.stackexchange.com/questions/55023
复制相似问题