基因组的的大小,杂合程度等因素都影响基因组组装的难易程度,目前市场上主流的有以下两种产品 细菌/真菌基因组组装 动植物基因组组装 细菌/真菌基因组相对较小,组装难度较低;动植物基因组很大,而且杂合度很高 对于测序而言,随着三代测序价格降低,对于小型基因组组装,可以直接进行三代测序;对于大型基因组组装,会结合二代和三代测序的数据;除了单纯测序组装外,还出现了Hi-C辅助基因组组装,光学图谱辅助基因组组装等产品 spades Abyss soapdenovo是由华大开发的组装工具,主要用于动植物基因组等大型基因组的组装,也可以用于细菌/真菌基因组组装。 对于大型基因组装而言,需要的硬件资源特别多,建议内存在150G以上。 contig. 2表示只组装scaffold,3表示同时组装contig和scaffold,4表示只补gap rd_len_cutof 序列长度阈值,作用和max_rd_len相同,大于该长度的序列会被切除到该长度
简介 NextDenovo 是一种针对长序列读取(包括CLR和ONT技术)的新型基因组组装工具。 sort_options = -m 50g -t 30 # sort 内存+线程 minimap2_options_raw = -t 8 # minimap2 选项,用于查找原始读取之间的重叠 pa_correction = 5 correction_options = -p 30 [assemble_option] minimap2_options_cns = -t 8 # minimap2 选项,用于查找校正读数之间的重叠 要点 组装大小小于预期基因组大小时的参数调整 对于高度杂合的基因组,可以尝试设置nextgraph_options = -a 1 -A。 可以选择nd.asm.p.fasta作为最终组装结果,但应首先验证组装质量。
对人和鼠科研项目来说,各种NGS测序数据分析起来都是有成熟的流程和工具,但是并不是使用的物种都是有参考基因组和注释文件的,走流程的前提就需要先测定自己研究的物种的基因组,组装起来。 组装效果评价: ? 组装效果评价 可以看到,组装结果一般般吧。 没有10x和hic的基因组组装效果简直没法看。 在Nature Communication杂志还可以看到很多新物种基因组组装,包括白羽扇豆染色体水平高质量基因组,基因组大小为~558.74Mb,Contig N50 = 1.76Mb,Scaffold 新物种测序策略 各大科研服务公司都提供这样的服务,费用取决于物种的基因组大小,测序的精细程度,约5-10万左右就可以拿下一个新物种的基因组组装哦!
图片导读本文主要对处理HiC数据的Juicer程序进行一个简短的介绍,并展示如何利用Juicer进行基因组组装中染色体挂载的第一步。1. 特点只需一次单击,用户就能够处理terabase规模的Hi-C数据集自动注释Loops和DomainsJuicer是一款开源的程序与多个集群操作系统和Amazon Web Services兼容2. 实战下面将详细介绍如何运行Juicer生成merged_nodups.txt文件,用于3D-DNA进行染色体挂载构建基因组索引# 基因组放在jucier/reference 目录下bwa index genome.fa fastq.gz ├── Sample2_R1.fastq.gz ├── Sample2_R2.fastq.gz ├── Sample3_R1.fastq.gz 拆分后序列的R1和R2端分别通过bwa比对基因组,然后合并,筛选嵌合体序列,去重复,生成预处理后的结果文件。
velvet是由EMBL-EBI开发的一款基因组组装工具,官网如下 https://www.ebi.ac.uk/~zerbino/velvet/ 安装过程如下 wget https://www.ebi.ac.uk 对于双端数据,有以下两种格式 interleaved separate R1和R2端序列保存在两个文件中,就是separate格式;interleaved是双端序列的一种格式,R1端和R2端的序列保存在一个文件当中 还需要注意的一个用法就是kmer长度,在实际分析时,通常会采用一系列的kmer长度分别组装,然后挑选一个最佳的结果。 31,37,2表示从kmer=31开始组装,然后进行递增,步长为2,依次进行33, 35, 37共4个kmer长度的组装。 运行结束后,输出目录下的contigs.fa就是最终的组装结果。
spades这款de novo基因组组装软件, 适用于细菌/真菌等小型基因组的组装,不推荐用于动植物基因组的组装。 是一套软件,类似office办公软件系列,包含了以下5个可执行文件 metaSPAdes plasmidSPAdes rnaSPAdes truSPAdes disSPAdes metaSPAdes用于宏基因组数据的组装 ,plasmidSPAdes用于组装叶绿体/线粒体基因组,rnaSPAdes用于RNA-seq数据的组装,truSPAdes用于treseq barcode序列的组装,disSPAdes用于组装高杂合度的二倍体基因组 双端数据 用--pe1-1和--pe1-2分别指定双端测序的R1端和R2端序列文件,多个文库用数字后缀区分,比如--pe2-1, --pe2-2 基本用法如下: spades.py -k 21,33,55,77,99,127 --careful --pe1-1 R1.fastq --pe-2 R2.fastq -o spades_output 输出结果目录会生成许多文件,其中scaffolds.fasta对应scaffold
对于不同kmer或者不同软件的基因组组装结果,我们通常会通过N50等指标来进行评估。 对于一个组装出来的序列,不论是contig还是scaffold, 首先将各个序列根据长度从大到小排序,然后从第一个序列开始,将长度进行累加,直到累加的长度超过了总长度的50%,此时,最后一个累加的contig Nx越大,说明组装出来的片段长度越长一定程度上,证实了组装结果越好。 除了Nx指标外,还有Lx指标,比如L50,指的是累加的contig的个数,示意图如下 ? 上图中L50的值是3。 在线服务虽然方便,但是也是有限制的,上传的fasta文件大小不能够超过100Mb,对于实际的基因组项目而言,当是不能满足要求。此时,可以下载软件到本地服务器,然后运行。 2. Nx 长度分布曲线 横坐标为Nx,纵坐标为Nx的值,示意图如下 ? 3. contig长度累计曲线 横坐标为contig个数,纵坐标为累加的长度,示意图如下 ? 4.
对于 trio-binning 组装来说,它是最好的单倍型解析组装软件之一,适用于父本短读取。对于人类基因组来说,hifiasm 可以在一天内完成端粒到端粒的组装。 ,只需要组装2n中的n,所以参数一般给 -l 2 -n 4 HiFi only 无需额外的数据类型组装 HiFi reads hifiasm -o NA12878.asm -t 32 NA12878.fq.gz contig,可能包含多个单倍体基因组;2/3:会对组装出来的基因组进行去冗余,对于二倍体,得到的结果基本上是全基因组一半的大小 # -n: 一般给3或者4,默认3,表示组装的contig中,unitigs 会创建一系列的 GFA 格式的基因组组装图谱: prefix.r_utg.gfa: 解决了单倍型问题的原始单元图谱,它详尽地记录了所有的单倍型数据。 获取组装结果 # get fasta awk '/^S/{print ">"$2;print $3}' test.p_ctg.gfa > test.p_ctg.fa
GetOrganelle推荐组装命令介绍--reads开始 优先推荐的命令--auto(高等植物叶绿体基因组) get_organelle_from_reads.py -1 sample_1.fastq.gz -1和-2 正向和反向测序原始数据文件(如果是单向测序,-u) -F 设定要组装的基因组类型 -o 结果输出保存的目录(文件夹)名称 -R 组装高等植物线粒体基因组的命令 get_organelle_from_reads.py -1 sample_1.fastq.gz -2 sample_2.fastq.gz -w 0.6 -F embplant_mt _1.fastq.gz -2 sample_2.fastq.gz -F embplant_nr -o output-nrDNA -R 10 -k 21,65,105 GetOrganelle推荐组装命令介绍 -o output-plastome 命令中的参数说明 -g SPAdes组装得到的FASTG的assembly graph -F 设定要组装的基因组类型 -o
宏基因组数据可以不经组装,直接将测序获得的reads比对到公共数据库中,利用比对到的数据库序列的物种归属信息对reads进行物种分类,从而快速获得群落的物种组成信息。 测序数据的筛选:去除宿主序列 测序数据的组装:常用软件工具 免组装宏基因组群落分析 更新中…… 01 KAIJU KAIJU(http://kaiju.binf.ku.dk/)是一个对宏基因组高通量测序数据进行物种分类的工具 进化分支特异的maker(Clade-specific markers)需要满足在该分支内的基因组中是保守的,并且与分支外的基因组序列不相似。 为此在MetaPhlAn2中,数据库进行了更新,使用了约17000参考基因组数据,(其中细菌和古菌13500、病毒3500、真核微生物,并用bowtie2进行reads和marker的比对。 接下来使用metaphlan2对宏基因组clean reads进行分析: nohup metaphlan2.py --nproc 20 --stat tavg_l --bowtie2out meta.bowtie2
除此之外,hi-c数据还有一个应用领域,那就是可以用来辅助基因组组装。 在NGS不断发展的今天,测序组装得到一个物种的基因组草图是一个非常容易的事情。 由于NGS的诸多限制性因素,比如GC含量,测序读长, mapping准确率等无法回避的问题,对于高重复序列,高杂合度的基因组,利用NGS测序数据,想要组装到染色体级别是一件非常困难的事情,特别是对于大型动植物的基因组组装而言 当然三代测序凭借其长读长的优势在基因组组装领域独领风骚,攻克了很多物种的基因组组装难题,但是其高昂的成本也制约着该技术的广泛应用。 .2727 在该文章中,提出了利用hi-c辅助基因组组装的具体思路,如下图所示 ? 2. order 该部分确定同一组contig排列的先后顺序,算法的原理示意如下 ? 这部分应用到了图论中的各种算法,理解不到位,就不展开了。 3.
ALLPATHS-LG 是由Broad Institiute研究所发明的一款基因组组装软件,不论是细菌/真菌等小型基因组,还是动植物等大型基因组的组装,它都能够胜任。 要求至少两个文库 第一个文库的插入片段长度不能超过测序读长的两倍,这样可以保证双端测序的reads之间存在overlap,这样的文库类型称之为fragment 第二个文库的插入片段通常大于3kb,超长读长有利于基因组的组装 在组装时,对于硬件资源也有一定的要求,对于哺乳动物基因组,建议内存大小为512G, 对于小基因组,建议内存大小32G。 2. OVERWRITE=True 上述命令中的5个参数构成了如下的目录结构 PRE/REFERENCE_NAME/DATA_SUBDIR/RUN/SUBDIR allpaths-lg通过这样的目录结构来存放多个基因组组装的结果
GAGE全称Genome Assembly Gold-Standard Evaluations,该项目选取了4个物种,然后用常用的几款基因组组装软件分别进行组装,最后对所有组装结果进行评估,为选取基因组组装软件提供了参考 官网如下: http://gage.cbcb.umd.edu/index.html 该项目组织了基因组组装方面的专家团队,对以下4个物种的基因组组装效果进行了评测 Staphylococcus aureus ,GAGE 评估了以下8款软件 AByss ALLPATHS-LG Bambus2 Celera Assembler MSR-CA SGA SOAPdenovo Velvet 官网提供了上述四个物种的原始序列 对于不同物种不同软件的组装结果,从contig和scaffold 两方面进行了评估。以human为例,评估结果如下 ? 对于一个组装结果而言,其组装序列数目越小,N50越大,说明组装效果越好。 从上表可以看出,Allpaths-LG的组装效果是最好的。 GAGE不仅为选取组装软件提供了参考,同时也可以作为一个基因组组装的学习资源。
canu -d canu_outdir genomeSize=4.8m -pacbio-raw pacbio.fastq -p 输出文件文件名的前缀 -d 输出文件夹的名字 -genomeSize 组装基因组的大小 setting to approximately 2X the average read depth. (这句话的意思还没有太理解) samtools提取没有比对到参考基因组的reads samtools index aln.bam samtools fastq -f 4 -l unmapped.R1.fastq -2 unmapped.R2.fastq -s unmapped.RS.fastq aln.bam fastq bam转换为fastq -f 4输出没有比对上的reads -1 -2 -s单个没有比对上的 参考文献 1 Pacbio reads: assembly with command line tools 2 canu quica start 3 使用Canu对三代测序进行基因组组装 4 生信小白组装学习系列
今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Canu,既适用于小基因组又适用于大基因组的组装,最早是为了应对低碱基质量(high-noise 他在基因组组装和单分子测序算法领域具有深厚的研究背景,开发了 Canu和 HiCanu等基因组组装软件,广泛应用于从微生物到人类的各种基因组组装项目。 此外,他们还在 Telomere-to-Telomere(T2T)项目中担任领导角色(共1第2位),完成了首个完整(T2T)的人类基因组序列。 和搭架(scaffolding)技术整合使用(图2)。 -d:组装文件输出文件夹 genomeSize=4.8m:指定待组装基因组的大小。
一般来说,宏基因组测序数据量越大越有利于序列组装,要想深入了解微生物群落往往需要深度测序,然而对于项目中大批量的样品,受制于成本每个样品的测序量不会很大;此外,对于动物组织等特殊样本,去掉宿主序列后剩余的数据往往很少 1 Spades Spades(http://cab.spbu.ru/software/spades/)可用于进行单细菌基因组组装,也能用于宏基因组测序数据,可以进行二代与三代测序数据的混合组装,也支持多样品组装 使用Spades进行多样品混合组装如下所示: nohup spades.py -o Spades --pe1-1 S1.clean_1.fq --pe2-1 S2.clean_1.fq --pe1-2 S1.clean_2.fq --pe2-2 S2.clean_2.fq -k 31,51,71,91,111 --meta -m 600 -t 20 & 具体参数介绍详见:测序数据的组装:常用软件工具 2 Megahit MEGAHIT(https://github.com/voutcn/megahit)是一个快速的节约内存的宏基因组二代测序数据拼接工具,也可以适用于单基因组组装。
今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Flye,可用于进行小型细菌到哺乳动物基因组的组装。 准确的基因组组装常常受到重复区域的干扰。尽管单分子长读长测序数据比短读长数据能更好的解析基因组中的重复序列,但大多数长读长组装算法并不能提供构建最优组装所需的重复特征信息。 与现有组装工具相比,Flye 生成的人类基因组组装在连续性方面(通过 NGA50 组装质量指标衡量)几乎提高了一倍 (图2)。 目前,Flye 对二倍体基因组的组装会输出合并(collapsed)的组装结果。如果希望获得phased单倍型,可以在组装完成后使用 HapDup 工具进行处理。 使用 --meta 选项可以启用宏基因组或覆盖度不均的样本组装模式。
通过第一讲:三维基因组学习笔记,我们了解了3D基因组研究范围,然后根据我在生信技能树发布的生信工程师标准提炼出基础技能,也就是第二讲:生信基础技能 。 但是咱们这个lachesis是2013年发表在nature biotechnology上(https://doi.org/10.1038/nbt.2727 )由shendurelab开发的用于辅助基因组组装的软件 /b2 toolset=gcc sudo ./b2 install # 或者sudo ./b2 install --prefix=/usr sudo . /b2 install --prefix=/usr就不需要这一步。各位朋友可以自己试试。 至此如果出现下图就说明软件安装成功了 ? 只要配置好test_case.ini文件就能正常使用了。 ? 2、samtools报错 ? 不管是输 ./configure --with-samtools=/home/hanschen/miniconda3/bin/ 还是 .
reference-free misassembly identification and correction of de novo metagenomic assemblies 论文摘要 评估宏基因组组装的质量对于构建可靠的宏基因组组装基因组和下游分析非常重要 作者开发了 metaMIC (https://github.com/ZhaoXM-Lab/metaMIC),这是一种基于机器学习的工具,用于识别和纠正宏基因组组装中的错误组装。 模拟和真实数据集的基准测试结果表明,metaMIC 在识别错误组装的重叠群时优于现有工具。此外,metaMIC 能够定位错误组装断点,并且通过在错误组装断点处拆分来纠正错误组装可以改善下游任务。
前面的步骤是基于组装好的基因组进行比对检测结构变异。我们把这部分代码拆出来学习一下。 使用拟南芥的数据集做测试 minimap2比对 minimap2 -ax asm5 --cs -r2k -t 16 ../Cvi.chr.all.v2.0.fasta .. /Kyo.chr.all.v2.0.fasta | samtools sort -@ 8 -O BAM -o Kyo.sorted.bam minimap2 -ax asm5 --cs -r2k -t /Ler.chr.all.v2.0.fasta | samtools sort -@ 8 -O BAM -o Ler.sorted.bam minimap2 -ax asm5 --cs -r2k -t