首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >多基因评分(PGS)和分子标记辅助选择(MAS)

多基因评分(PGS)和分子标记辅助选择(MAS)

作者头像
邓飞
发布2026-03-12 18:27:14
发布2026-03-12 18:27:14
70
举报

大家好,我是邓飞,人类中多基因得分(PGS)这个方法,相当于动植物中的分子标记辅助(MAS)或者是基因组选择(GS)。虽然概念有所区分,但是理论都是相通的。下面是根据个人理解,介绍一下。

1,PGS分析流程介绍

第一步:搜集数据、整理数据

  • 包括搜集GWAS的summary 结果
  • 表型数据和基因型数据检测

第二步:验证和处理

  • 群体结构,亲缘关系
  • 查看共有变异(提升稀有变异)
  • 消失和隐藏的遗传力
  • 生物路径相关性分析

第三步:计算多基因评分和预测

  • 选择显著性位点和权重
  • 根据P值选择
  • 对PGS如何影响性状进行可视化

第四步:检查表型的共享遗传结构

  • 预测表型
  • 表型相关:通过LD Score回归计算
  • pleiotropy
  • 多性状分析:MTAG

第五步:模型应用

  • 预测个体风险
  • 孟德尔随机化分析
  • genetic confounding
  • 基因与环境互作

2,多基因评分

Polygenic score,什么是PGS?

什么是多基因评分?多基因评分(PGS)是多个遗传位点与表型之间关系的数值总结。PGS有时被称为多基因谱评分、遗传谱评分、基因型评分,或者在讨论疾病时,被称为多基因风险评分。我们采用更中性的polvgenic评分,因为当我们讨论非疾病相关的行为表型时,用“风险”来表述就不那么直观了。Polvgenic得分直接来自我们在第4章中概述的GWASs中的全基因组关联。我们使用这些数据的汇总统计数据来估计单核苷酸多态性(SNP)如何结合来解释感兴趣的特征。

实际上,PGS是整个基因组表型相关等位基因的线性组合,通常由GWAS效应大小加权。因此,这是一个单一的定量指标,可以解释为个体相对于群体的表型遗传倾向的指标。对于我们感兴趣的大多数性状而言,单个SNP是弱预测因子(效应比较小)。复杂的性状与许多遗传变异有关,每一个变异都只占变异的一小部分。PGS是一种跨基因组聚合这些信息的解决方案。

一般来说,我们可以将一个人的多基因得分定义为一个人在M基因座的基因型的加权和。个体i的PGS可以计算为每个SNPj=1的等位基因计数A(0、1或2)的总和。⋯..M、 乘以重量w,

(类似GS中的间接法,比如rrBLUP、Bayes系列方法,根据SNP效应值进行累加得到育种值)

3,分子标记辅助选择(MAS)
利用与目标性状紧密连锁的分子标记 (如 SNP) 进行间接选择,替代或辅助传统表型选择 。分子标记来源于主效QTL或者GWAS得到的大效应位点或者已知基因的信息,特点是效应比较大或者是质量性状(孟德尔性状)。 MAS应用比较好的领域:通过检测基因或者QTL存在与否来判断目标性状是否存在,进而进行选择,比如玉米抗锈基因、花生高油酸基因、水稻抗稻瘟病基因、小麦抗条锈病基因、猪的抗蓝耳病、牛的抗乳房炎以及鱼类的抗柱状病等应用,这些目标性状由一个或者几个主效基因/QTL控制,分子标记与目标性状紧密连锁,能通过标记快速筛选优良个体,跳过复杂的表型鉴定步骤。通过标记,将多个优良基因聚合,在种质早期进行筛选,这种分子育种方法在动植物育种中被广泛使用。

MAS应用不太好的领域:挖掘的基因有效应,但不太大,控制性状的基因很多,性状属于偏数量性状,这些位点应用范围就很有限,不同群体背景差异很大,存在基因与环境互作(不同年份、不同地点差异很大),位点效应有差异,只选效应大的效果有限,全部都选误差很大,食之无味弃之可惜是也。常规的做法,用逐步回归的方法选择位点数和解释度最佳的组合,作为预测模型,还要考虑LD连锁导致的共线性问题。

4,MAS做不好的我PGS来做

优势1:挖掘数据的良方。PGS在做分析时,使用summary result结果,就是GWAS的分析结果,包括effect和pvalue,利用大样本(5万~10万)或者超大样本(10万~100万)对某个性状挖掘的GWAS数据,包括很多稀有变异的结果,然后对自己的验证群体进行筛选最优组合,这样效果很好,毕竟从金矿中挖金子比在海水里挖金子更靠谱。动植物育种中,可以充分借鉴已有的研究成果,将相关的基因、结果、引物搜集起来,现在很多物种都有现成的数据库,再结合自己的群体,收集基因型和表型数据作为验证群体,用于挖掘可靠的位点数据(建模),后面进行应用(预测)。

优势2:预测模型的利器。对于找到的位点组合,比如50个位点,效应值有大有小,不用通过累计求和的形式进行计算,不用通过逐步回归的形式进行计算,直接用PRS的工具进行计算,充分考虑连锁、Effect、Pvalue等因素,得到最好的结果。

总结:

1,之前有个误区,分子标记辅助只对主效基因有帮助,科研文章中定位的很多基因和位点应用价值有限,真正有应用价值的是对应的主效基因,可以做回交育种、可以做转基因、可以做基因编辑。但是,很多性状都是由很多基因控制的,其中的主效基因解释百分比也很低,在应用中只有西瓜芝麻一起抓才能有好的效果。如何一起抓?PGS更靠谱。

2,对于物种GWAS和QTL数据库的应用,现在很多物种都有各种性状的数据库,对于这些数据库的应用,之前的误区在于不能直接使用,所以就是没用。可以借鉴PGS的思路,不能直接拿来用,因为群体结构等各种因素,可以局部验证筛选后使用。具体来说,把GWAS的summary result下载下来,用自己的群体做一下验证(需要检测对应的基因型和表型),然后筛选出适合自己群体的子集,进行后面大群体的预测。

相关阅读:

多基因平分(PRS)与全基因组关联分析(GWAS)有什么关系?

统计遗传学:第五章,多基因得分(PGS)分析

PRSice软件windows安装教程

R语言计算多基因评分(PRS)

如何使用plink进行二分类性状的GWAS分析并计算PRS得分

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1,PGS分析流程介绍
  • 2,多基因评分
    • 3,分子标记辅助选择(MAS)
    • 利用与目标性状紧密连锁的分子标记 (如 SNP) 进行间接选择,替代或辅助传统表型选择 。分子标记来源于主效QTL或者GWAS得到的大效应位点或者已知基因的信息,特点是效应比较大或者是质量性状(孟德尔性状)。 MAS应用比较好的领域:通过检测基因或者QTL存在与否来判断目标性状是否存在,进而进行选择,比如玉米抗锈基因、花生高油酸基因、水稻抗稻瘟病基因、小麦抗条锈病基因、猪的抗蓝耳病、牛的抗乳房炎以及鱼类的抗柱状病等应用,这些目标性状由一个或者几个主效基因/QTL控制,分子标记与目标性状紧密连锁,能通过标记快速筛选优良个体,跳过复杂的表型鉴定步骤。通过标记,将多个优良基因聚合,在种质早期进行筛选,这种分子育种方法在动植物育种中被广泛使用。
    • 4,MAS做不好的我PGS来做
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档