首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >plink分析二分类Logistic的GWAS模型,表型值编码以及OR值意义

plink分析二分类Logistic的GWAS模型,表型值编码以及OR值意义

作者头像
邓飞
发布2026-04-22 20:01:17
发布2026-04-22 20:01:17
780
举报

大家好,我是邓飞,二分类性状的logistics可以使用plink软件进行分析。这里介绍一下数据的整理和命令的应用。

plink的语境叫“case and control”,其中0和-9都表示缺失。可以选择的方法有卡方检验和逻辑斯蒂回归(X2关联分析和logistic分析)。

「--assoc」,不允许有协变量,应用很少

「--logistic」,允许有协变量,如果考虑协变量,应用范围广泛

一、文件准备

基因型文件:通常是以 PLINK 格式提供的文件,包括 .ped 和 .map 文件,或 .bed、.bim、.fam 三个格式文件。

表型数据:需要包含每个样本的表型信息,通常为一个二分类变量(例如病例与对照,1 和 2),FID,IID,y,没有行头,二分类,1和2两种。1是case(有表型),2是control。

协变量:一般是性别、年龄等协变量,也包括PCA分析得到的结果

比如:下面进行PCA分析,得到PC1,PC2,PC3的三个协变量

代码语言:javascript
复制
plink --file ../geno/c --pca 3

二、数据质控

代码语言:javascript
复制
plink--bfileyour_data--mind 0.1--maf 0.01--geno 0.1--make-bed--outfiltered_data

三、运行模型

代码语言:javascript
复制
plink --bfile filtered_data --logistic --pheno phenotype_file.txt --out logistic_results

四、结果查看

  • 输出结果文件将包含每个 SNP 的 P 值、优势比 (OR) 以及置信区间等信息。
  • 通常结果会包括如下内容:
    • SNP:SNP 的标识符
    • A1, A2:两个等位基因
    • Freq A1:A1 等位基因的频率
    • beta:回归系数
    • OR:优势比
    • p-value:P 值

五、注意事项:

1,如果没有性别信息,在代码中加上:

代码语言:javascript
复制
--allow-no-sex

2,如果有协变量,不想输出结果

代码语言:javascript
复制
--hide-covar

完整代码:

代码语言:javascript
复制
plink --file ../geno/d 
--logistic 
--pheno ../pheno/clean_phe.txt 
--out result_logistic 
--allow-no-sex 
--covar ../covar/plink.eigenvec --hide-covar

3,OR值大于1是什么意思?

OR(Odds Ratio,优势比)是用于衡量两组之间某种特征或变量的关联强度的统计指标。在这种情况下,如果你计算得到的 OR 值大于 1,通常可以这样解读:

OR > 1 表示在病例组中,某个特征(如某种基因变异、表型表现等)的出现概率高于对照组。这意味着该特征可能与病例状态(表型存在)相关联。

具体来说,OR 值大于 1 意味着该特征的存在增加了从对照组转变为病例组的可能性,表明该特征可能是风险因素或者与某个表型的发生存在某种积极的关联。

简单来说,OR > 1 表明这个特征在病例中更常见,有可能对发病具有促进作用。但需要注意的是,OR 不能直接解释为因果关系,最终的结论还需要结合其他统计分析和生物医药背景知识。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档