问高维向量比较法的群相似性
EN

Data Science用户

提问于 2016-04-21 12:19:21

回答 2查看 289关注 0票数 1

我有一个256行的数据集，其中有61列/变量。每一行都应被视为维度61的向量。如果我把它随机分成两组，怎么能证明这两组是相似的呢？数据的来源是生物医学，非线性方法应该更好。

发布于 2016-04-21 13:53:02

您不能实际证明这两个组是相似的，但您可以建立一个信任水平/阈值。此外，如果两个组中只有一个包含强异常值，则这两个组可能不会相似(取决于相似性的阈值)。

也就是说，您可以根据有关底层数据分布的假设进行比较。例如，如果可以假设数据分布为多元正态分布，则可以使用霍特林二样本T-平方统计量 (学生t-测验的多变量泛化)测试您的置信区间。

票数 1

发布于 2016-07-20 20:18:40

最近还有其他方法，如主差异分析，专门设计来解决这类问题。我不确定这个方法是否可以作为一个R包，你可以从手稿中得到概念/算法。请参阅http://arxiv.org/abs/1510.08956

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/11338

复制

相似问题

问高维向量比较法的群相似性EN