我有一个256行的数据集,其中有61列/变量。每一行都应被视为维度61的向量。如果我把它随机分成两组,怎么能证明这两组是相似的呢?数据的来源是生物医学,非线性方法应该更好。
发布于 2016-04-21 13:53:02
您不能实际证明这两个组是相似的,但您可以建立一个信任水平/阈值。此外,如果两个组中只有一个包含强异常值,则这两个组可能不会相似(取决于相似性的阈值)。
也就是说,您可以根据有关底层数据分布的假设进行比较。例如,如果可以假设数据分布为多元正态分布,则可以使用霍特林二样本T-平方统计量 (学生t-测验的多变量泛化)测试您的置信区间。
发布于 2016-07-20 20:18:40
最近还有其他方法,如主差异分析,专门设计来解决这类问题。我不确定这个方法是否可以作为一个R包,你可以从手稿中得到概念/算法。请参阅http://arxiv.org/abs/1510.08956
https://datascience.stackexchange.com/questions/11338
复制相似问题