我有两个矩阵,包含来自40个样本和50000个基因的信息。Matrix Expr包含每个基因和样本的基因表达;Matrix Methyl包含每个样本的这些基因的甲基化状态。是否有可能同时基于表达和甲基化信息对基因和/或样本进行聚类?我知道如何在R即hclust(dist(M))中执行基本的层次聚类,但它只在一个矩阵上。有什么想法/建议吗?
发布于 2016-05-27 21:55:27
您需要定义一个将两个矩阵都考虑在内的相似度。
天真地,这可能像这样简单
dist <- dist(A) + dist(B)然而,集群通常对规模非常敏感,这些问题使得任何这样的方法都非常困难。抱歉-没有“正确”或自动解决此问题的方法。
发布于 2016-05-27 20:16:28
如果你想在考虑基因表达和甲基化状态的情况下,根据样本的(不同)相似性对样本进行聚类,那么你可以认为所有50000个基因的基因表达和基因甲基化状态都是每个样本的“特征”。
因此,您可以连接两个矩阵Methyl和Expr,得到一个40x100000的矩阵,并计算该矩阵的dist()。
类似地,如果您希望根据基因的差异对其进行聚类,可以将两个矩阵连接到一个80x50000矩阵上
希望能有所帮助。
https://stackoverflow.com/questions/37481519
复制相似问题