假设我有两个不同的特征集A和B。我试图确定哪一组功能是最好的。由于我的数据集很小,所以我使用左一交叉验证作为最终的度量。我正在尝试找出我的实验设置,我决定了几种方法:
1)将特征集A给我的分类器(可选运行的特征选择),将特征集B给出相同的分类器(也可以选择运行特征选择),然后比较这两个分类器的LOOCV误差。
2)给出分类器的特征集A和B,然后确定特征选择,然后根据所选择的特征得出更高层次的结论。(例如,如果选择了更多的A,则特征集A似乎具有更大的预测价值)
3)其他我不知道的方式
发布于 2013-11-21 00:25:54
您所描述的标准过程非常类似于方法1:
A和B上分别对同一分类器的两个实例进行训练。也就是说,如果不严格限制特性集A xor B,那么使用与2中描述的方法类似的方法可以获得更好的结果,从而生成一个新的集合C。
很难相信使用一次交叉验证的结果,最好是使用10倍。这可能是这样一种情况,如果您能够获得更多的数据,并且如果不能,您可能无法执行您的分析,那么更多的数据将非常有用。
发布于 2013-11-21 00:10:37
在您的方法1中,我想知道为什么您对不同的特性使用不同的分类器?我更喜欢你的方法2。在你的训练过程中保留所有的特征,你可以更好地选择合适的特征,因为不必要的特征的权重会衰减。当你有很多功能的时候,它就会工作得很好,每个特性都有一点贡献。在这种方法中,还可以增加正则化因子。
https://stackoverflow.com/questions/20108399
复制相似问题