我试图为文件中的所有SNP绘制一个VCF文件的三个值(QUAL、DP和分阶段速率)。
我认为PCA图是减少图形维数和比较值的好方法,尽管它们不是在相同的尺度上。
我尝试用不同的R包(如ggbiplot和pca3d )来构建主成分分析,但由于缺少维数,点云的分布似乎总是倾斜的。在下面找到用于生成ggbi图的代码。
有人会建议将三个不同尺度的值降为二维PCA吗?
library(devtools)
library(ggbiplot)
# Create the dataframe
df <- df[c("quality", "phasing", "depth")]
# Create the PCA dataset
pop.pca <- prcomp(df, center = TRUE,scale. = TRUE)
# Create the plot
ggbiplot(pop.pca) +
scale_y_continuous(trans='log10') +
scale_x_continuous(trans='log10')
发布于 2022-03-17 07:56:13
不缺少维度,因为PC1和PC2是所有变量的“摘要”。实际上,PC1是您的特性的线性组合,计算类似:PC1 = v1*feature1 + v2*feature2 + v3*feature3 + ...,其中v1,v2和v3是由PCA模型直接计算的标量数。
PCA计算n个PC,其中n等于你的特征数,并被选择为第一个和第二个PC,因为它们解释了系统中最大的变异性。
关于R中的完整示例,请遵循下面的链接
https://datascience.stackexchange.com/questions/109113
复制相似问题