首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >群体遗传三剑客第一剑:主成分分析PCA

群体遗传三剑客第一剑:主成分分析PCA

作者头像
邓飞
发布2026-03-12 17:52:11
发布2026-03-12 17:52:11
130
举报

大家好,我是邓飞

群体遗传学中常用的三大分析工具:主成分分析(PCA)、Admixture分析和进化树(Phylogenetic Tree),它们在分析基因型数据时各有侧重,互为补充。下面分别介绍一下。


1. 主成分分析(PCA)

作用:

PCA是一种降维技术,用于可视化基因型数据的群体结构。它通过线性变换,将高维的基因型数据(例如SNP位点)投影到低维空间(通常是2D或3D),以揭示样本间的遗传变异模式。

原理:

  • 输入数据:通常是基因型矩阵(行是样本,列是SNP位点,值是0/1/2表示基因型的等位基因计数)。
  • 计算过程:
    1. 对基因型矩阵进行标准化(去除均值,避免频率差异的影响)。
    2. 计算协方差矩阵,反映样本间的遗传相似性。
    3. 特征分解,提取主成分(PCs),每个主成分解释一部分遗传变异。
  • 输出:散点图(如PC1 vs PC2),样本点的位置反映遗传距离,群体分化通常表现为点群的分离。

应用场景:

  • 检测群体分化(如欧洲人群与亚洲人群的分离)。
  • 识别异常样本(outliers)。
  • 探索环境或地理因素与遗传变异的关系。

工具:

  • PLINK(计算PCA的常用软件)。
  • EIGENSOFT(SmartPCA)。
  • R语言包(如adegenet、SNPRelate)

2. 主成分分析(PCA)网页版实现

http://asreml.cn/population-genetics/pca

朋友推荐了这个神奇的网站,赶快注册了一下,十分好用,还有示例数据可以练习,上传自己的数据也完全没问题,后面这几篇博客介绍一下使用方法。

数据使用的是plink的二进制文件,可以上传数据自动绘制PCA,也可以把原始的作图数据下载下来,还支持分组PCA,重要的是它把PCA的解释百分比也给出来了,满足了各种需求。

上传基因型的二进制文件,三个文件:fam、bed、bim文件

结果包括两个PCA图和两个PCA结果:

2-D的PCA结果:

3D-PCA结果:

原始作图的PCA数据:

还有每个PCA的解释百分比:

还支持分组的PCA显示,每个分组不同的颜色:

资源推荐:

1,快来领取 | 飞哥的GWAS分析教程

2,飞哥汇总 | 入门数据分析资源推荐

3,数量遗传学,分享几本书的电子版

4,R语言学习看最新版的电子书不香嘛?

5,书籍及配套代码领取--统计遗传分析导论

6,飞哥的学习圈子

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档