首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信技能树

    新物种基因组组装

    对人和鼠科研项目来说,各种NGS测序数据分析起来都是有成熟的流程和工具,但是并不是使用的物种都是有参考基因组和注释文件的,走流程的前提就需要先测定自己研究的物种的基因组组装起来。 组装效果评价: ? 组装效果评价 可以看到,组装结果一般般吧。 没有10x和hic的基因组组装效果简直没法看。 在Nature Communication杂志还可以看到很多新物种基因组组装,包括白羽扇豆染色体水平高质量基因组基因组大小为~558.74Mb,Contig N50 = 1.76Mb,Scaffold 新物种测序策略 各大科研服务公司都提供这样的服务,费用取决于物种的基因组大小,测序的精细程度,约5-10万左右就可以拿下一个新物种的基因组组装哦!

    90510发布于 2020-04-23
  • 来自专栏数据科学(冷冻工厂)

    Juicer: 辅助基因组组装

    图片导读本文主要对处理HiC数据的Juicer程序进行一个简短的介绍,并展示如何利用Juicer进行基因组组装中染色体挂载的第一步。1. juicer/juicer_tools.1.9.9_jcuda.0.8.jar# 创建符号链接ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar3. 实战下面将详细介绍如何运行Juicer生成merged_nodups.txt文件,用于3D-DNA进行染色体挂载构建基因组索引# 基因组放在jucier/reference 目录下bwa index genome.fa R1.fastq.gz └── Sample3_R2.fastq.gz 运行# nohup 命令会将程序挂在后台运行nohup /home/juicer/scripts/juicer.sh 其中"merged_nodups.txt"就是下一步3D-DNA的输入文件之一。

    1.1K10编辑于 2023-01-19
  • 来自专栏生信修炼手册

    velvet软件进行基因组组装

    velvet是由EMBL-EBI开发的一款基因组组装工具,官网如下 https://www.ebi.ac.uk/~zerbino/velvet/ 安装过程如下 wget https://www.ebi.ac.uk 还需要注意的一个用法就是kmer长度,在实际分析时,通常会采用一系列的kmer长度分别组装,然后挑选一个最佳的结果。 ,示例如下 velveth Assem 31,37,2 -shortPaired -fasta -separate left.fa right.fa 上述用法中的31,37,2表示从kmer=31开始组装 ,然后进行递增,步长为2,依次进行33, 35, 37共4个kmer长度的组装。 运行结束后,输出目录下的contigs.fa就是最终的组装结果。

    1.8K30发布于 2020-05-08
  • 来自专栏生信修炼手册

    spades基因组组装软件简介

    spades这款de novo基因组组装软件, 适用于细菌/真菌等小型基因组组装,不推荐用于动植物基因组组装。 该软件主要用于illumina,IonTorrent reads的组装,也可以进行PacBio, Oxford nanopore, Sanger reads的组装。 是一套软件,类似office办公软件系列,包含了以下5个可执行文件 metaSPAdes plasmidSPAdes rnaSPAdes truSPAdes disSPAdes metaSPAdes用于宏基因组数据的组装 ,plasmidSPAdes用于组装叶绿体/线粒体基因组,rnaSPAdes用于RNA-seq数据的组装,truSPAdes用于treseq barcode序列的组装,disSPAdes用于组装高杂合度的二倍体基因组 --pe-2 R2.fastq -o spades_output 输出结果目录会生成许多文件,其中scaffolds.fasta对应scaffold的结果,contig.fasta对应contig组装的结果

    4K10发布于 2020-05-08
  • 来自专栏数据科学(冷冻工厂)

    基因组组装: 3D-DNA 染色体挂载

    导读本文将介绍基因组组装过程中,如何利用HiC测序数据,进行染色体级别基因组组装。 背景介绍目前基因组组装的主要流程是,利用二代或者三代技术进行测序,利用得到的测序数据,拼接为contig级别的基因组,如果需要上升到染色体级别,那么就需要对物种进行HiC测序,进一步进行染色体挂载。 目前对于二倍体动物,3D-DNA是效果最好的,下面就介绍3D-DNA的使用方法。2. 安装2.1. 流程图图片上图是使用3D-DNA进行染色体挂载的流程图,其中第一步是测序和基础组装,测序一般是交给测序公司来完成,contig组装利用物种对应的组装软件即可。 数据准备基因组文件:genome.faJuicer结果:merged_nodups.txt3.2. run# 对组装的信心高,用-r 0, 否则用默认的-r 2就行了# -r 代表 3d-dna 修正的次数

    99010编辑于 2023-01-19
  • 来自专栏数据科学(冷冻工厂)

    基因组组装: 3D-DNA 染色体挂载

    导读 本文将介绍基因组组装过程中,如何利用HiC测序数据,进行染色体级别基因组组装。 背景介绍 目前基因组组装的主要流程是,利用二代或者三代技术进行测序,利用得到的测序数据,拼接为contig级别的基因组,如果需要上升到染色体级别,那么就需要对物种进行HiC测序,进一步进行染色体挂载。 流程图 3D-DNA流程图 上图是使用3D-DNA进行染色体挂载的流程图,其中第一步是测序和基础组装,测序一般是交给测序公司来完成,contig组装利用物种对应的组装软件即可。 数据准备 基因组文件:genome.fa Juicer结果:merged_nodups.txt 3.2. run # 对组装的信心高,用-r 0, 否则用默认的-r 2就行了 # -r 代表 3d-dna 将结果中的.hic文件和.assembly文件导入Juicebox中进行调整,最后输出修改后的.assembly文件,再运行下面命令,即可获取染色体级别的基因组

    1.5K20编辑于 2023-02-27
  • 来自专栏生信修炼手册

    QUAST:评估基因组组装效果

    对于不同kmer或者不同软件的基因组组装结果,我们通常会通过N50等指标来进行评估。 对于一个组装出来的序列,不论是contig还是scaffold, 首先将各个序列根据长度从大到小排序,然后从第一个序列开始,将长度进行累加,直到累加的长度超过了总长度的50%,此时,最后一个累加的contig Nx越大,说明组装出来的片段长度越长一定程度上,证实了组装结果越好。 除了Nx指标外,还有Lx指标,比如L50,指的是累加的contig的个数,示意图如下 ? 上图中L50的值是3。 在线服务虽然方便,但是也是有限制的,上传的fasta文件大小不能够超过100Mb,对于实际的基因组项目而言,当是不能满足要求。此时,可以下载软件到本地服务器,然后运行。 3. contig长度累计曲线 横坐标为contig个数,纵坐标为累加的长度,示意图如下 ? 4.

    7.2K20发布于 2020-05-08
  • 来自专栏数据科学(冷冻工厂)

    基因组组装:Hifiasm 使用教程

    对于 trio-binning 组装来说,它是最好的单倍型解析组装软件之一,适用于父本短读取。对于人类基因组来说,hifiasm 可以在一天内完成端粒到端粒的组装。 contig,可能包含多个单倍体基因组;2/3:会对组装出来的基因组进行去冗余,对于二倍体,得到的结果基本上是全基因组一半的大小 # -n: 一般给3或者4,默认3,表示组装的contig中,unitigs 支持大于3或4才保留,该参数会将支持度比较低的contig去掉 ONT Hifiasm 可以集成超长 ONT 读取来生成端粒到端粒的组装: # only ONT hifiasm -o NA12878. NA12878.asm -t32 --h1 read1.fq.gz --h2 read2.fq.gz HiFi-reads.fq.gz Results 一般来说,hifiasm 会创建一系列的 GFA 格式的基因组组装图谱 获取组装结果 # get fasta awk '/^S/{print ">"$2;print $3}' test.p_ctg.gfa > test.p_ctg.fa

    1.9K10编辑于 2024-04-15
  • 来自专栏生信修炼手册

    soapdenovo2进行基因组组装

    基因组的的大小,杂合程度等因素都影响基因组组装的难易程度,目前市场上主流的有以下两种产品 细菌/真菌基因组组装 动植物基因组组装 细菌/真菌基因组相对较小,组装难度较低;动植物基因组很大,而且杂合度很高 对于测序而言,随着三代测序价格降低,对于小型基因组组装,可以直接进行三代测序;对于大型基因组组装,会结合二代和三代测序的数据;除了单纯测序组装外,还出现了Hi-C辅助基因组组装,光学图谱辅助基因组组装等产品 spades Abyss soapdenovo是由华大开发的组装工具,主要用于动植物基因组等大型基因组组装,也可以用于细菌/真菌基因组组装。 对于大型基因组装而言,需要的硬件资源特别多,建议内存在150G以上。 contig. 2表示只组装scaffold,3表示同时组装contig和scaffold,4表示只补gap rd_len_cutof 序列长度阈值,作用和max_rd_len相同,大于该长度的序列会被切除到该长度

    2.4K10发布于 2020-05-08
  • 来自专栏小明的数据分析笔记本

    细胞器基因组组装利器~GetOrganelle~推荐组装命令介绍

    GetOrganelle推荐组装命令介绍--reads开始 优先推荐的命令--auto(高等植物叶绿体基因组) get_organelle_from_reads.py -1 sample_1.fastq.gz 组装高等植物线粒体基因组的命令 get_organelle_from_reads.py -1 sample_1.fastq.gz -2 sample_2.fastq.gz -w 0.6 -F embplant_mt -o output-plastome 命令中的参数说明 -g SPAdes组装得到的FASTG的assembly graph -F 设定要组装基因组类型 -o graph -F 设定要组装基因组类型 -o 结果输出保存的目录(文件夹)名称 --min-depth 剔除graph中depth ; 3、生物信息学入门学习资料及自己的学习笔记!

    8.5K71发布于 2021-04-21
  • 来自专栏微生态与微进化

    组装基因组群落分析

    基因组数据可以不经组装,直接将测序获得的reads比对到公共数据库中,利用比对到的数据库序列的物种归属信息对reads进行物种分类,从而快速获得群落的物种组成信息。 测序数据的筛选:去除宿主序列 测序数据的组装:常用软件工具 免组装基因组群落分析 更新中…… 01 KAIJU KAIJU(http://kaiju.binf.ku.dk/)是一个对宏基因组高通量测序数据进行物种分类的工具 默认输出到标准输出 -z:程序运行的核数,默认为1 -a:使用最精准比对算法"mem"还是贪婪算法"greedy",MEM算法只考虑精确匹配,不允许有错配,默认为greedy -e:贪婪算法中最大允许错配数,默认为3 进化分支特异的maker(Clade-specific markers)需要满足在该分支内的基因组中是保守的,并且与分支外的基因组序列不相似。 Paired、Pastel1、Pastel2、PiYG、PuBu、PuBuGn、PuOr、PuRd、Purples、RdBu、RdGy、RdPu、RdYlBu、RdYlGn、Reds、Set1、Set2、Set3

    1.1K40编辑于 2022-05-05
  • 来自专栏数据科学(冷冻工厂)

    基因组组装:NextDenovo2 使用大全

    简介 NextDenovo 是一种针对长序列读取(包括CLR和ONT技术)的新型基因组组装工具。 Nextomics/NextDenovo.git cd NextDenovo && make 使用 准备输入 # 准备input.fofn ls reads1.fasta reads2.fastq reads3. son_assemble # 工作目录 [correct_option] read_cutoff = 1k # reads 截断 过滤器读取长度< read_cutoff(默认值:1k) genome_size = 3g 要点 组装大小小于预期基因组大小时的参数调整 对于高度杂合的基因组,可以尝试设置nextgraph_options = -a 1 -A。 可以选择nd.asm.p.fasta作为最终组装结果,但应首先验证组装质量。

    1.1K10编辑于 2024-04-28
  • 来自专栏生信修炼手册

    hi-c辅助基因组组装简介

    除此之外,hi-c数据还有一个应用领域,那就是可以用来辅助基因组组装。 在NGS不断发展的今天,测序组装得到一个物种的基因组草图是一个非常容易的事情。 由于NGS的诸多限制性因素,比如GC含量,测序读长, mapping准确率等无法回避的问题,对于高重复序列,高杂合度的基因组,利用NGS测序数据,想要组装到染色体级别是一件非常困难的事情,特别是对于大型动植物的基因组组装而言 当然三代测序凭借其长读长的优势在基因组组装领域独领风骚,攻克了很多物种的基因组组装难题,但是其高昂的成本也制约着该技术的广泛应用。 .2727 在该文章中,提出了利用hi-c辅助基因组组装的具体思路,如下图所示 ? 3. orientation 该部分确定contig的方向,算法的原理示意如下 ? 这部分应用到了图论中的各种算法,理解不到位,就不展开了。

    1.5K30发布于 2019-12-19
  • 来自专栏生信修炼手册

    ALLPATHS-LG基因组组装软件简介

    ALLPATHS-LG 是由Broad Institiute研究所发明的一款基因组组装软件,不论是细菌/真菌等小型基因组,还是动植物等大型基因组组装,它都能够胜任。 allpaths-lg要求至少两个文库 第一个文库的插入片段长度不能超过测序读长的两倍,这样可以保证双端测序的reads之间存在overlap,这样的文库类型称之为fragment 第二个文库的插入片段通常大于3kb ,超长读长有利于基因组组装,这样的文库类型称之为jumping 除了插入片段外,allpaths-lg对测序深度也有要求,推荐100X以上。 在组装时,对于硬件资源也有一定的要求,对于哺乳动物基因组,建议内存大小为512G, 对于小基因组,建议内存大小32G。 OVERWRITE=True 上述命令中的5个参数构成了如下的目录结构 PRE/REFERENCE_NAME/DATA_SUBDIR/RUN/SUBDIR allpaths-lg通过这样的目录结构来存放多个基因组组装的结果

    1.3K10发布于 2020-05-08
  • 来自专栏生信修炼手册

    GAGE:基因组组装评估的金标准

    GAGE全称Genome Assembly Gold-Standard Evaluations,该项目选取了4个物种,然后用常用的几款基因组组装软件分别进行组装,最后对所有组装结果进行评估,为选取基因组组装软件提供了参考 官网如下: http://gage.cbcb.umd.edu/index.html 该项目组织了基因组组装方面的专家团队,对以下4个物种的基因组组装效果进行了评测 Staphylococcus aureus Rhodobacter sphaeroides Human (e.g. chromosome 14) Bombus impatiens (a species of bee) 对于组装而言,最核心的问题是组装软件和参数的设置 对于不同物种不同软件的组装结果,从contig和scaffold 两方面进行了评估。以human为例,评估结果如下 ? 对于一个组装结果而言,其组装序列数目越小,N50越大,说明组装效果越好。 从上表可以看出,Allpaths-LG的组装效果是最好的。 GAGE不仅为选取组装软件提供了参考,同时也可以作为一个基因组组装的学习资源。

    86930发布于 2020-05-08
  • 来自专栏小明的数据分析笔记本

    使用Circlator环化Ecoli基因组组装结果

    canu -d canu_outdir genomeSize=4.8m -pacbio-raw pacbio.fastq -p 输出文件文件名的前缀 -d 输出文件夹的名字 -genomeSize 组装基因组的大小 image.png 使用circlator环化基因组 circlator all --verbose canu_outdir/canu.contigs.fasta canu_outdir/canu.correctedReads.fasta.gz (这句话的意思还没有太理解) samtools提取没有比对到参考基因组的reads samtools index aln.bam samtools fastq -f 4 -l unmapped.R1.fastq 参考文献 1 Pacbio reads: assembly with command line tools 2 canu quica start 3 使用Canu对三代测序进行基因组组装 4 生信小白组装学习系列 :初识Canu与其组装实战训练(3)

    2.8K20发布于 2020-03-03
  • 来自专栏三代测序-说

    基因组 | 三代长读长基因组组装 -- Canu

    今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Canu,既适用于小基因组又适用于大基因组组装,最早是为了应对低碱基质量(high-noise 他在基因组组装和单分子测序算法领域具有深厚的研究背景,开发了 Canu和 HiCanu等基因组组装软件,广泛应用于从微生物到人类的各种基因组组装项目。 Canu的组装准确度高、参数完备,能得到较好的基因组组装结果。相应地,资源消耗较多,较其它组装工具而言运行会稍慢(如Flye)。 Canu对原始数据的组装分为三个阶段和四个步骤 (图3): 1. 修剪 (Trim) 采用重叠修剪 (overlap-based trim) 的方法,将测序序列中不产生重叠的部分去除. 3.组装 (Assembly) 使用矫正和修剪后的序列,进行基于OLC算法的组装, -d:组装文件输出文件夹 genomeSize=4.8m:指定待组装基因组的大小。

    78521编辑于 2025-05-29
  • 来自专栏微生态与微进化

    基因组多样品的混合组装

    一般来说,宏基因组测序数据量越大越有利于序列组装,要想深入了解微生物群落往往需要深度测序,然而对于项目中大批量的样品,受制于成本每个样品的测序量不会很大;此外,对于动物组织等特殊样本,去掉宿主序列后剩余的数据往往很少 为了获得更好的拼接结果、得到更多微生物序列,我们可以将项目中相似来源的测序数据进行混合组装。 需要注意的是,混合组装不等于将不同样品的reads合并到一起进行组装,这样反而会给组装带来很大困扰;多样品拼接是一个不同的组装策略,他可以利用序列在不同样本的丰度相关进行聚类并延长。 1 Spades Spades(http://cab.spbu.ru/software/spades/)可用于进行单细菌基因组组装,也能用于宏基因组测序数据,可以进行二代与三代测序数据的混合组装,也支持多样品组装 2 Megahit MEGAHIT(https://github.com/voutcn/megahit)是一个快速的节约内存的宏基因组二代测序数据拼接工具,也可以适用于单基因组组装

    2.8K30编辑于 2022-05-05
  • 来自专栏三代测序-说

    基因组 | 三代长读长基因组组装 -- Flye

    今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Flye,可用于进行小型细菌到哺乳动物基因组组装。 准确的基因组组装常常受到重复区域的干扰。尽管单分子长读长测序数据比短读长数据能更好的解析基因组中的重复序列,但大多数长读长组装算法并不能提供构建最优组装所需的重复特征信息。 与现有组装工具相比,Flye 生成的人类基因组组装在连续性方面(通过 NGA50 组装质量指标衡量)几乎提高了一倍 (图2)。 该工具包是一个完整的组装流程:从原始的 PacBio / ONT 序列出发,最终输出经过纠错的contigs序列(图3)。此外,Flye 还提供了专门用于宏基因组组装的模式。 使用 --meta 选项可以启用宏基因组或覆盖度不均的样本组装模式。

    75021编辑于 2025-05-27
  • 来自专栏生信技能树

    HiC数据辅组基因组组装之Lachesis

    通过第一讲:三维基因组学习笔记,我们了解了3D基因组研究范围,然后根据我在生信技能树发布的生信工程师标准提炼出基础技能,也就是第二讲:生信基础技能 。 最后提炼出了数据分析流程,并且安装好了对应的软件,也就是第3讲:流程及软件 。 不过中间我还插播了一个文献解读 。 但是咱们这个lachesis是2013年发表在nature biotechnology上(https://doi.org/10.1038/nbt.2727 )由shendurelab开发的用于辅助基因组组装的软件 /configure --with-samtools=/home/hanschen/miniconda3/bin/ 还是 . /configure --with-samtools=/home/hanschen/miniconda3/bin/samtools 还是 .

    4K30发布于 2018-09-21
领券