我使用基于CNN的模型来进行序列分类。因为训练整个数据集是非常昂贵的,而且我需要尝试大量的特性,所以我不可能通过完整的培训来选择特性。
通常在训练前进行良好的心智检查,就是试着让模型过适合一小组训练样本,以确保模型至少能够记住一个小样本。
借用这个想法,我的问题是,我能不能训练一小部分训练数据,并利用它的损失曲线作为度量,来选择最佳的特征?每一次训练都是为了测试给定所选特征子集的训练损失会有多快收敛。
发布于 2017-11-14 07:44:00
祝贺你!您已经独立地建议使用包装法进行特性选择。是的,你可以用这个方法。但是,考虑到包装器方法很慢,因为您必须为每次迭代训练一个模型。不仅如此,特征选择是一个NP-完全问题,所以不要期望最优子集.
https://datascience.stackexchange.com/questions/24710
复制相似问题