首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基因表达数据集的特征选择

基因表达数据集的特征选择
EN

Data Science用户
提问于 2016-06-28 08:17:05
回答 1查看 1.5K关注 0票数 1

我正在搜索一种特征选择算法,该算法选择以下特征:

  • 与区分样本组有关(为每个样本提供一组标签)
  • 所有样本的差异都很大

这应该应用于基因表达数据集,在该数据集中,每个样本都有一个组标签,因此应该可以为每个组选择一组要检查的特征。

我现在有两位候选人:

  • 基于随机森林分类器特征重要性结果的特征选择
  • 使用最小冗余最大相关(mRMR)算法

然而,我不知道哪一个可能是最好的,或是否有更好的候选人为此目的。

如果该算法是用Python实现的

EN

回答 1

Data Science用户

回答已采纳

发布于 2016-06-28 20:44:16

如果您能更多地描述您的数据集,这将是有帮助的。基因表达数据集往往具有很高的维数,而Lasso正则logistic回归是解决这一问题的一种常用方法。这篇论文再深入一点,也许能帮到你:http://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-14-198

随机林通常可以提供有意义的重要性排序,但也取决于数据集的外观。

mRMR听起来像是专门为识别基因特征而设计的,所以一定要试一试。

也有主成分分析,这也是用于基因表达数据。

有很多选项,但您的问题还不够详细,不能更进一步,在这一点上提供代码作为解决方案是不现实的。Python的文档有很多很好的解释和例子。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/12455

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档