我正在搜索一种特征选择算法,该算法选择以下特征:
这应该应用于基因表达数据集,在该数据集中,每个样本都有一个组标签,因此应该可以为每个组选择一组要检查的特征。
我现在有两位候选人:
然而,我不知道哪一个可能是最好的,或是否有更好的候选人为此目的。
如果该算法是用Python实现的
发布于 2016-06-28 20:44:16
如果您能更多地描述您的数据集,这将是有帮助的。基因表达数据集往往具有很高的维数,而Lasso正则logistic回归是解决这一问题的一种常用方法。这篇论文再深入一点,也许能帮到你:http://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-14-198
随机林通常可以提供有意义的重要性排序,但也取决于数据集的外观。
mRMR听起来像是专门为识别基因特征而设计的,所以一定要试一试。
也有主成分分析,这也是用于基因表达数据。
有很多选项,但您的问题还不够详细,不能更进一步,在这一点上提供代码作为解决方案是不现实的。Python的文档有很多很好的解释和例子。
https://datascience.stackexchange.com/questions/12455
复制相似问题