我有:
1) 2组受试者(对照组和癌症患者)
2)针对每个特征的一组特征。
我想找出哪种特征,或者哪种特征的组合,在这两组人之间区分得最好。
我已经开始评估AUC,然后是一些k均值聚类,但我不知道如何组合特征进行分类。
谢谢
发布于 2019-01-29 20:36:07
我建议你使用一些特征重要性评估的方法。有许多不同的方法来测试特征的重要性。首先,在我看来,一个简单的是随机森林分类器。该模型在训练过程中根据出袋误差进行“内置”特征重要性评估。在训练过程中,基于树的分类器在获得特征值后,必须评估信息的增益。
你还可以通过修改数据集来检查模型得分,即使用后向淘汰策略来测试特征重要性。
您还可以使用PCA或统计测试。最后,您还可以查找功能之间的依赖关系,以便从数据功能中删除未提供足够信息的功能。
https://stackoverflow.com/questions/54269706
复制相似问题