首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >利用支持向量机进行基因表达分析

利用支持向量机进行基因表达分析
EN

Stack Overflow用户
提问于 2013-05-24 05:45:44
回答 1查看 501关注 0票数 0

我的问题是:

a)我得到了一个1000个基因在6个时间点的表达数据集。

b)某些基因(testing set)属于某一类,其特征是基因表达在这些时间点上的分布。

c)我还有一个这类已知基因的数据集(training set)。

d)另外,我想通过随机重组我的测试集来生成一个false数据集,并将其包含在我的支持向量机模型中。

我想我知道如何通过使用Re1071包来实现(a)-(c),但我不确定如何实现(d)。我应该只用计算出的模型测试我的false数据,然后比较这个数据集和test set上的结果吗?

我应该使用什么样的分布来进行比较?(paretro或者universal gamma提供了我计算的概率?)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-05-24 13:45:10

我会考虑两种方法:

  1. 按照您的建议,在支持向量机中运行您的false集(或者更确切地说,多个排列,即多个false集)作为您的附加测试集,并将得分与真实测试集进行比较。从本质上讲,您可能希望显示您的真实测试集比大多数错误集的性能要好得多。这将符合统计测试的精神,例如,在this paper中描述更复杂的数据。此外,this paper对于使用入库方法将支持向量机分数转换为校准的概率也很有用。
  2. 使用false集的一个子集作为第二个训练集来构建一个两类支持向量机。然后,分类任务将是确定你的基因表达模式更可能属于哪个类别:“阳性”类别还是“假”类别。This paperthis threadthis thread,以及一般的支持向量机教科书,可能有助于决定如何最好地设计这种两类分类器。

希望能有所帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16724447

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档