首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏育种数据分析之放飞自我

    plink软件cookbook

    所以,好好利用plink软件,对于速度的提升非常显著。 功能强大,我在使用plink的过程中,它逐渐给我惊喜,仔细研究说明文档非常有必要。 1 (PART) Part I 软件介绍 1 plink 软件介绍 准备写一系列plink软件常用的命令,最近在数据分析时,需要将基因型的数据转化为0-1-2的形式,编程实现效果太差,100万的数据,plink 格式」 「第三种常用的格式:hapmap格式」 3.1 plink正常格式转二进制格式 比如这里有plink格式的文件,前缀为a的plink文件: $ ls a.map a.ped 将其转化为二进制文件 --cow --dog --horse --mouse· --rice --sheep 3.2 plink二进制格式转为正常格式 这里有plink格式的文件,前缀为b的plink二进制文件 文件转为vcf文件 这里有plink格式的文件,前缀为c的plink二进制文件: $ ls *c* c.hh c.log c.map c.ped 将其转化文件:d.vcf plink --file

    2.7K30发布于 2021-03-30
  • 来自专栏育种数据分析之放飞自我

    plink2.0和plink1.9的忧伤笔记

    飞哥真心话: 虽然plink2.0已经存在好久了,但是一直用的都是plink1.9,因为语法熟悉。 更主要是plink2.0语法变动太大,害怕步子迈得太大了…… plink2.0用是不会用的,2022年都不会用!!! 建议:plink1.9简写为plinkplink2.0 简写为plink2 3,plink帮助文档 可以通过官网查询具体参数:https://www.cog-genomics.org/plink/ plink2 --ped yuanshi.ped --map yuanshi.map 或者写为: plink2 --pedmap yuanshi 默认输出文件: plink2.log plink2 .pgen plink2.psam plink2.pvar • plink2.log,log日志,不用理会 • plink2.pgen,二进制文件,类似plink1.9的bim文件 • plink2

    2.8K10编辑于 2022-12-13
  • 来自专栏育种数据分析之放飞自我

    当R语言遇到plink,就在R中运行plink

    R语言和plink软件都是常用的软件,随着对软件的熟悉,就不用自己写代码了,直接改代码了,既然改代码,就在一个环境下运行就行了,不想来回切换R和Bash。 问题来了:如何在R语言中运行plink软件。 Linux系统下,将plink放到bin文件夹下,直接调用就行,用R语言的system直接调用就行。 1,下载plink软件 2,下载R语言 3,将plink.exe文件,放到R语言的bin文件夹下 4,将R语言的路径放到环境变量中 然后就可以在R中调用plink软件了,而且代码放到Linux系统下 1,下载plink软件 网址:https://www.cog-genomics.org/plink/ 然后解压,进入文件夹,找到plink.exe文件。 5,测试是否成功 打开Rstudio,新建一个R脚本: # test plink system("plink") 运行: 搞定! 分割线 ---- 大家好,我是邓飞,一个持续分享的数据分析师

    2.8K11编辑于 2022-12-12
  • 来自专栏生信修炼手册

    采用plink挑选tagSNPs

    plink 软件可以用于识别tagSNPs。由于tagSNPs是建立在haplotype的基础上的,所以首先需要识别haplotype block。 命令如下 plink --bfile mydata --blocks 这条命令会产生两个文件,plink.blocks 和 plink.blocks.det 。 基于haplotype的结果,我们就可以去分析某个haplotype block中的tagSNPs位点了,用法如下 plink --bfile mydata --show-tags mysnps.txt mysnps.txt 文件中每一行是一个SNP位点,示例如下 rs7527871 rs2840528 rs7545940 plink只会对mysnps.txt文件指定的一组SNP位点挑选tagSNPs 这一步会生成两个文件,plink.list和plink.tags.list。 plinks.list和mysnps.txt文件内容类似,只不过在其基础上新增了tagSNP位点的ID。

    3.3K30发布于 2020-05-11
  • 来自专栏生信修炼手册

    plink PED 文件格式介绍

    plink是进行全基因组关联分析常用的软件之一,该软件需要两种基本格式的输入文件,ped和map。本篇重点介绍一下ped格式。 phenotype代表表型,其中表型可以是离散型的(比如质量性状),也可以是连续型的(比如数量性状),plink会自动识别对应的类型。通过以上6个必须的字段,可以完整的映射到某一性状的家系图上。

    4.4K41发布于 2020-05-11
  • 来自专栏育种数据分析之放飞自我

    plink如何更新表型数据

    平时在分析时,也有时候需要将外部准备好的数据,更新到plink数据中。 其实,plink自己有一个参数,可以自动更新表型数据,只需要将所要更新的表型数据准备好就行了。下面介绍一下操作流程。 1. plink文本文件更新表型数据 下面我们用plink示例数据来进行演示,这个数据很小,也可以自己生成。 0 A A 1 1000000001 0 0 1 1 C C G A 2. plink二进制文件更新表型数据 首先,用toy生成二进制的plink文件 plink --file toy 为何要更新表型数据 初学者看到plink的ped第六列或者fam的第六列是表型数据,就想把自己的数据加进去。

    2.1K10编辑于 2022-12-13
  • 来自专栏生信修炼手册

    plink中casecontrol关联分析细节解析

    作为关联分析最常用的工具,plink支持多种关联分析的算法。 plink中的费舍尔精确检验是一个双边检验的结果,用R语言验证的结果如下 ? 目前plink只有-assoc支持输出置信区间和多重假设检验的校正,--model不支持。

    3.4K31发布于 2019-12-19
  • 来自专栏生信修炼手册

    使用plink进行casecontrol关联分析

    本篇文章按照plink官方提供的教程,进行一个实际操作。可以看做是官方教程的一个翻译版本。 官方教程的链接如下 http://zzz.bwh.harvard.edu/plink/tutorial.shtml 1. 下载测试数据 wget http://zzz.bwh.harvard.edu/plink/hapmap1.zip unzip hapmap1.zip 文件列表如下 ├── hapmap1.map ├── 查看输入文件的基本信息 plink运行时,会联网检查软件是否是最新版,如果不想进行这一操作,可以添加--noweb选项。plink 需要两个输入文件,分别为.ped和.map格式。 命令如下 plink --file hapmap1 --noweb 需要注意的是,plink默认情况下,会对输入数据进行过滤,主要是过滤突变位点和和样本。

    2.5K31发布于 2020-05-11
  • 来自专栏育种数据分析之放飞自我

    如何在R语言中安装plink2R用于读取plink二进制文件

    ('plink2R/',repos=NULL) ERROR: dependencies ‘Rcpp’, ‘RcppEigen’ are not available for package ‘plink2R ’ * removing ‘/home/gwas/R3.6/lib/R/library/plink2R’ Warning message: In install.packages("plink2R/", loading ** help Warning: /home/gwas/test/plink2R/plink2R/man/plink2R-package.Rd:33: All text must be in a section Warning: /home/gwas/test/plink2R/plink2R/man/plink2R-package.Rd:34: All text must be in (plink2R) dat <- read_plink("data") dim(dat$bed) dim(dat$fam) dim(dat$bim)

    1.1K10编辑于 2024-06-21
  • 来自专栏育种数据分析之放飞自我

    plink文件使用Haploview进行单倍型分析

    1,vcf变为plink,或者excel变为plink格式,然后直接读入到Haploview,卒。 vcf变为plink,以及plink提取snp导出plink格式,或者excel的格式变为plink格式,这些数据都建议用plink重新跑一下,确保数据没问题。 plink --file file --maf 0.01 --geno 0.3 --recode --out qc300 如果plink运行报错,就不要往下走了,先把这个问题解决掉! 2,plink格式的map数据,需要变为info格式 简单来说,就是提取map的第二列和第四列,生成info为后缀的文件 awk '{print $2,$4}' qc300.map >qc300.info 代码汇总: plink --file file --maf 0.01 --geno 0.3 --recode --out qc300 sed -i 's/-/_/g' qc300.ped sed -

    1.2K10编辑于 2023-12-20
  • 来自专栏育种数据分析之放飞自我

    GBS hapmap 格式 转化为Plink格式方法

    大家好,我是邓飞,今天介绍一下hapmap格式的数据,如何变为plink格式的数据。 1.需求说明 进行重测序或者GBS时,hapmap 是比较常见的格式,生信中经常使用这种格式。 但是在GWAS和GS中,数据筛选,质控,构建矩阵都是使用的plink的格式。本文介绍如何tassel 和vcftools两个软件,将hapmap格式的数据转化为plink格式的数据。 格式:ped和map plink格式是基因组选择中经常用到的文件类型, plink软件功能强大,运行速度快。 /run_pipeline.pl -fork1 -h test.sort.hmp.txt -export -exportType VCF 生成一个test.vcf文件 5.3 使用plink生成plink -out t1 # 生成的t1.ped 和 t1.map为plink的结果文件

    69410编辑于 2024-12-30
  • 来自专栏生信修炼手册

    使用plink进行连锁不平衡分析

    plink是进行连锁不平衡分析的常用工具之一,需要两个基本的输入文件,后缀分别为ped和map。ped文件格式在之前的文章中已经详细介绍过,这里只介绍map文件。 plink 进行LD分析有以下两种方式: 1. 对所有的SNP位点进行分析 命令如下: plink --file test --r plink --file test --r2 --r会直接输出所有LD分析的结果,而--r2会根据R2值对结果进行过滤 输出文件为plink.ld。 更多参数的用法请参考官方文档 http://zzz.bwh.harvard.edu/plink/ld.shtml

    6K21发布于 2020-05-09
  • 来自专栏育种数据分析之放飞自我

    GAPIT使用plink数据进行GWAS分析

    hmp格式是一种基因型格式,但是现在更多的是vcf或者plink格式的数据,今天介绍一下plink格式的数据如何导入到GAPIT软件中进行分析。 GAPIT软件支持的基因型格式为:hmp格式,plink数据转化为hmp格式,中间经过了很多路。现在提供另外一种解决方案,不用将plink数据转化为hmp格式,进行GWAS分析。 参数,可以很容易的将plink数据转化为0-1-2的形式。 将plink格式转化为0-1-2的格式 c为二进制的plink文件,运行下面命令,生成plink.raw文件。 plink --bfile c --recodeA --out --re # 生成0-1-2的基因型数据 plink --bfile c --recode --out file # 生成map数据,用于

    2.1K30编辑于 2022-12-13
  • 来自专栏育种数据分析之放飞自我

    plink软件如何计算PIC(多态信息含量)

    今天介绍一下如何使用plink计算PIC,PIC的意思是多态信息含量 (polymorphism information content,PIC)。 maf和PIC的关系: 如何使用plink的maf结果计算PIC? 1,对基因型数据进行质控 plink --file new_id_dd --chr-set 40 --snps-only just-acgt --chr 1-18 --mind 0.1 --geno 0.1 --hwe 1e-5 --recode --out temp 2,计算maf plink --file temp --freq 3,用R语言计算PIC library(data.table) library (tidyverse) freq=fread(file="plink.frq",header=T) head(freq) summary(freq) freq$Pic=1-freq[,5]^2-(1-freq

    39410编辑于 2025-08-07
  • 来自专栏育种数据分析之放飞自我

    Excel的SNP数据如何变为plink格式

    大家伙,我是邓飞,之前写过两篇Excle数据转为plink的格式: Excel格式的SNP数据怎么变为plink格式 Excel的SNP数据变为plink格式的数据--代码分享 有些人可以成功,也有很多人各种报错 map数据: ped数据: 使用plink命令判断是否转化成功 plink --file file --missing 如果没有报错,就转化成功了。 通过查看xlsx文件,发现最后有很多空白的内容,将相关行全部删除,再处理一下: 重新运行上面的代码: $ plink --file file --missing PLINK v1.90b6.21 64 Chang GNU General Public License v3 Logging to plink.log. 常见问题3:indel位点 plink格式不支持indel位点,需要将indel位点删除。 当然,如果有几万个snp,就不方便处理了。

    2.1K10编辑于 2022-07-27
  • 来自专栏Windows技术交流

    plink批量验证ssh免交互登录

    我系统里的plink.exe是VMware自带的 C:\Program Files (x86)\VMware\VMware vCenter Converter Standalone\plink.exe 语法:plink.exe -ssh -P your_port -pw "password" username@your_host cmd、powershell通用,ssh可执行命令,在新窗口 首次执行会存在 -ssh -P 36000 -pw "密码" Administrator@81.70.149.112 cmd.exe /c start /wait plink.exe -ssh -P 36000 -pw /wait plink.exe -ssh -P 36000 -pw "密码" Administrator@81.70.243.227 cmd.exe /c start /wait plink.exe - -ssh -P 36000 -pw "密码" Administrator@82.156.192.171}}" 用plink批量验证ssh免交互登录非常方便。

    81610编辑于 2024-05-30
  • 来自专栏生物信息与临床医学专栏

    初探PLINK文件格式(bed,bim,fam)

    在我们进行GWAS分析时,经常会使用到PLINK软件,对于新手来说可能掌握起来比较困难,所以首先我将和大家分享PLINK文件的基本格式。 我在这里讲到的PLINK文件主要有三类,即bed,bim和fam文件。 N/4的结果取整后加1作为各组的字节数,编码信息如下: 00:基因型是bim文件第一个等位基因的纯合子 01:基因型缺失 10:基因型是杂合子 11:基因型是bim文件第二个等位基因的纯合子 如果你在PLINK 关于PLINK文件的基本格式就介绍完毕了,希望大家能牢记各个文件的结构信息,这在后续的数据分析中非常重要。

    4.9K20发布于 2020-08-06
  • 来自专栏育种数据分析之放飞自我

    Excel格式的SNP数据怎么变为plink格式

    有时候,我们会遇到Excel格式的基因型数据,这篇博文介绍一下如何手动转为plink格式。 可以在Excel中整理,也可以在R语言中整理。 主要思路是根据plink的格式特点,针对性的满足,然后导出,就可以了。 1. 2. plink的格式 「.map格式」 格式说明链接: http://zzz.bwh.harvard.edu/plink/data.shtml#map ❝map格式的文件, 主要是图谱文件信息, 主要包括染色体名称 所以,下面的任务就是把Excel的格式,变为plink的ped和map格式。 3. 测试plink plink --file file --missing 搞定! ---- 大家好,我是邓飞,一个持续分享的农业数据分析师

    2.3K50编辑于 2022-05-19
  • 来自专栏育种数据分析之放飞自我

    GBS hapmap 格式 转化为Plink格式方法

    但是在GWAS和GS中,数据筛选,质控,构建矩阵都是使用的plink的格式。本文介绍如何tassel 和vcftools两个软件,将hapmap格式的数据转化为plink格式的数据。 格式:ped和map plink格式是基因组选择中经常用到的文件类型, plink软件功能强大,运行速度快。 文件 vcftools --vcf test.vcf --plink --out tassel.test.vcf2plink 生成tassel.test.vcf2plink文件 5.4 使用plink 将vcf文件, 变为bed文件 plink --file tassel.test.vcf2plink --make-bed --out tassel.test.vcf2plink ? 5.5 使用plink将bed文件转化为map和ped文件 plink --bfile tassel.test.vcf2plink --recode --out result 结果生成:result.ped

    3.2K20发布于 2019-10-24
  • 来自专栏育种数据分析之放飞自我

    plink计算TagSNP和lead SNP的方法

    总之,clump命令在PLINK中用于将相关的SNP聚类到一起,并选择一个或多个代表性的SNP来代表整个关联区域。 看起来更像clump的结果。 我又看了一下--blocks和--clump的区别: 在PLINK中,clump和--block这两个选项用于处理不同的场景,具有不同的功能和用途。 另一方面,--block选项主要用于在PLINK的某些分析步骤中指定数据的块或区域。它允许用户将基因组数据划分为多个块或区域,并在后续的分析中单独处理这些块。 总结来说,clump和--block在PLINK中扮演着不同的角色。clump用于在GWAS结果中聚类相关的SNP,而--block则用于在数据分析过程中指定数据的块或区域。

    1.4K10编辑于 2024-04-10
领券