大家好,我是邓飞,人类中多基因得分(PGS)这个方法,相当于动植物中的分子标记辅助(MAS)或者是基因组选择(GS)。虽然概念有所区分,但是理论都是相通的。下面是根据个人理解,介绍一下。
第一步:搜集数据、整理数据

第二步:验证和处理

第三步:计算多基因评分和预测

第四步:检查表型的共享遗传结构

第五步:模型应用

Polygenic score,什么是PGS?
什么是多基因评分?多基因评分(PGS)是多个遗传位点与表型之间关系的数值总结。PGS有时被称为多基因谱评分、遗传谱评分、基因型评分,或者在讨论疾病时,被称为多基因风险评分。我们采用更中性的polvgenic评分,因为当我们讨论非疾病相关的行为表型时,用“风险”来表述就不那么直观了。Polvgenic得分直接来自我们在第4章中概述的GWASs中的全基因组关联。我们使用这些数据的汇总统计数据来估计单核苷酸多态性(SNP)如何结合来解释感兴趣的特征。
实际上,PGS是整个基因组表型相关等位基因的线性组合,通常由GWAS效应大小加权。因此,这是一个单一的定量指标,可以解释为个体相对于群体的表型遗传倾向的指标。对于我们感兴趣的大多数性状而言,单个SNP是弱预测因子(效应比较小)。复杂的性状与许多遗传变异有关,每一个变异都只占变异的一小部分。PGS是一种跨基因组聚合这些信息的解决方案。
一般来说,我们可以将一个人的多基因得分定义为一个人在M基因座的基因型的加权和。个体i的PGS可以计算为每个SNPj=1的等位基因计数A(0、1或2)的总和。⋯..M、 乘以重量w,

(类似GS中的间接法,比如rrBLUP、Bayes系列方法,根据SNP效应值进行累加得到育种值)
MAS应用不太好的领域:挖掘的基因有效应,但不太大,控制性状的基因很多,性状属于偏数量性状,这些位点应用范围就很有限,不同群体背景差异很大,存在基因与环境互作(不同年份、不同地点差异很大),位点效应有差异,只选效应大的效果有限,全部都选误差很大,食之无味弃之可惜是也。常规的做法,用逐步回归的方法选择位点数和解释度最佳的组合,作为预测模型,还要考虑LD连锁导致的共线性问题。
优势1:挖掘数据的良方。PGS在做分析时,使用summary result结果,就是GWAS的分析结果,包括effect和pvalue,利用大样本(5万~10万)或者超大样本(10万~100万)对某个性状挖掘的GWAS数据,包括很多稀有变异的结果,然后对自己的验证群体进行筛选最优组合,这样效果很好,毕竟从金矿中挖金子比在海水里挖金子更靠谱。动植物育种中,可以充分借鉴已有的研究成果,将相关的基因、结果、引物搜集起来,现在很多物种都有现成的数据库,再结合自己的群体,收集基因型和表型数据作为验证群体,用于挖掘可靠的位点数据(建模),后面进行应用(预测)。
优势2:预测模型的利器。对于找到的位点组合,比如50个位点,效应值有大有小,不用通过累计求和的形式进行计算,不用通过逐步回归的形式进行计算,直接用PRS的工具进行计算,充分考虑连锁、Effect、Pvalue等因素,得到最好的结果。
总结:
1,之前有个误区,分子标记辅助只对主效基因有帮助,科研文章中定位的很多基因和位点应用价值有限,真正有应用价值的是对应的主效基因,可以做回交育种、可以做转基因、可以做基因编辑。但是,很多性状都是由很多基因控制的,其中的主效基因解释百分比也很低,在应用中只有西瓜芝麻一起抓才能有好的效果。如何一起抓?PGS更靠谱。
2,对于物种GWAS和QTL数据库的应用,现在很多物种都有各种性状的数据库,对于这些数据库的应用,之前的误区在于不能直接使用,所以就是没用。可以借鉴PGS的思路,不能直接拿来用,因为群体结构等各种因素,可以局部验证筛选后使用。具体来说,把GWAS的summary result下载下来,用自己的群体做一下验证(需要检测对应的基因型和表型),然后筛选出适合自己群体的子集,进行后面大群体的预测。
相关阅读: