我的问题是:
a)我得到了一个1000个基因在6个时间点的表达数据集。
b)某些基因(testing set)属于某一类,其特征是基因表达在这些时间点上的分布。
c)我还有一个这类已知基因的数据集(training set)。
d)另外,我想通过随机重组我的测试集来生成一个false数据集,并将其包含在我的支持向量机模型中。
我想我知道如何通过使用R和e1071包来实现(a)-(c),但我不确定如何实现(d)。我应该只用计算出的模型测试我的false数据,然后比较这个数据集和test set上的结果吗?
我应该使用什么样的分布来进行比较?(paretro或者universal gamma提供了我计算的概率?)
发布于 2013-05-24 13:45:10
我会考虑两种方法:
false集的一个子集作为第二个训练集来构建一个两类支持向量机。然后,分类任务将是确定你的基因表达模式更可能属于哪个类别:“阳性”类别还是“假”类别。This paper,this thread和this thread,以及一般的支持向量机教科书,可能有助于决定如何最好地设计这种两类分类器。希望能有所帮助。
https://stackoverflow.com/questions/16724447
复制相似问题