首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信技能树

    新物种基因组组装

    对人和鼠科研项目来说,各种NGS测序数据分析起来都是有成熟的流程和工具,但是并不是使用的物种都是有参考基因组和注释文件的,走流程的前提就需要先测定自己研究的物种的基因组组装起来。 组装效果评价: ? 组装效果评价 可以看到,组装结果一般般吧。 没有10x和hic的基因组组装效果简直没法看。 在Nature Communication杂志还可以看到很多新物种基因组组装,包括白羽扇豆染色体水平高质量基因组基因组大小为~558.74Mb,Contig N50 = 1.76Mb,Scaffold 新物种测序策略 各大科研服务公司都提供这样的服务,费用取决于物种的基因组大小,测序的精细程度,约5-10万左右就可以拿下一个新物种的基因组组装哦!

    90010发布于 2020-04-23
  • 来自专栏数据科学(冷冻工厂)

    Juicer: 辅助基因组组装

    图片导读本文主要对处理HiC数据的Juicer程序进行一个简短的介绍,并展示如何利用Juicer进行基因组组装中染色体挂载的第一步。1. 目录建立# 新建Juice目录mkdir juicer && cd juicer# 新建参考基因组相关文件目录mkdir references # 新建样本的序列文件和分析结果目录mkdir work 实战下面将详细介绍如何运行Juicer生成merged_nodups.txt文件,用于3D-DNA进行染色体挂载构建基因组索引# 基因组放在jucier/reference 目录下bwa index genome.fa 生成酶切图谱文件# 需要将 DpnII 换为 测序过程使用的酶# genome 替换为 基因组的名字python /home/juicer/misc/generate_site_positions.py 拆分后序列的R1和R2端分别通过bwa比对基因组,然后合并,筛选嵌合体序列,去重复,生成预处理后的结果文件。

    1.1K10编辑于 2023-01-19
  • 来自专栏生信修炼手册

    velvet软件进行基因组组装

    velvet是由EMBL-EBI开发的一款基因组组装工具,官网如下 https://www.ebi.ac.uk/~zerbino/velvet/ 安装过程如下 wget https://www.ebi.ac.uk 还需要注意的一个用法就是kmer长度,在实际分析时,通常会采用一系列的kmer长度分别组装,然后挑选一个最佳的结果。 ,示例如下 velveth Assem 31,37,2 -shortPaired -fasta -separate left.fa right.fa 上述用法中的31,37,2表示从kmer=31开始组装 ,然后进行递增,步长为2,依次进行33, 35, 37共4个kmer长度的组装。 运行结束后,输出目录下的contigs.fa就是最终的组装结果。

    1.8K30发布于 2020-05-08
  • 来自专栏生信修炼手册

    spades基因组组装软件简介

    spades这款de novo基因组组装软件, 适用于细菌/真菌等小型基因组组装,不推荐用于动植物基因组组装。 该软件主要用于illumina,IonTorrent reads的组装,也可以进行PacBio, Oxford nanopore, Sanger reads的组装。 是一套软件,类似office办公软件系列,包含了以下5个可执行文件 metaSPAdes plasmidSPAdes rnaSPAdes truSPAdes disSPAdes metaSPAdes用于宏基因组数据的组装 ,plasmidSPAdes用于组装叶绿体/线粒体基因组,rnaSPAdes用于RNA-seq数据的组装,truSPAdes用于treseq barcode序列的组装,disSPAdes用于组装高杂合度的二倍体基因组 --pe-2 R2.fastq -o spades_output 输出结果目录会生成许多文件,其中scaffolds.fasta对应scaffold的结果,contig.fasta对应contig组装的结果

    4K10发布于 2020-05-08
  • 来自专栏生信修炼手册

    QUAST:评估基因组组装效果

    对于不同kmer或者不同软件的基因组组装结果,我们通常会通过N50等指标来进行评估。 对于一个组装出来的序列,不论是contig还是scaffold, 首先将各个序列根据长度从大到小排序,然后从第一个序列开始,将长度进行累加,直到累加的长度超过了总长度的50%,此时,最后一个累加的contig Nx越大,说明组装出来的片段长度越长一定程度上,证实了组装结果越好。 除了Nx指标外,还有Lx指标,比如L50,指的是累加的contig的个数,示意图如下 ? 上图中L50的值是3。 在线服务虽然方便,但是也是有限制的,上传的fasta文件大小不能够超过100Mb,对于实际的基因组项目而言,当是不能满足要求。此时,可以下载软件到本地服务器,然后运行。

    7.2K20发布于 2020-05-08
  • 来自专栏数据科学(冷冻工厂)

    基因组组装:Hifiasm 使用教程

    对于 trio-binning 组装来说,它是最好的单倍型解析组装软件之一,适用于父本短读取。对于人类基因组来说,hifiasm 可以在一天内完成端粒到端粒的组装。 && make conda(推荐) conda install -c bioconda hifiasm Usages Notes no need polish 无需合并多个输入文件 绝大多数二倍体基因组 contig,可能包含多个单倍体基因组;2/3:会对组装出来的基因组进行去冗余,对于二倍体,得到的结果基本上是全基因组一半的大小 # -n: 一般给3或者4,默认3,表示组装的contig中,unitigs 要进行这样的组装,您首先需要使用 yak 对 k-mer 进行计数,然后再进行组装。 NA12878.asm -t32 --h1 read1.fq.gz --h2 read2.fq.gz HiFi-reads.fq.gz Results 一般来说,hifiasm 会创建一系列的 GFA 格式的基因组组装图谱

    1.8K10编辑于 2024-04-15
  • 来自专栏生信修炼手册

    soapdenovo2进行基因组组装

    基因组的的大小,杂合程度等因素都影响基因组组装的难易程度,目前市场上主流的有以下两种产品 细菌/真菌基因组组装 动植物基因组组装 细菌/真菌基因组相对较小,组装难度较低;动植物基因组很大,而且杂合度很高 对于测序而言,随着三代测序价格降低,对于小型基因组组装,可以直接进行三代测序;对于大型基因组组装,会结合二代和三代测序的数据;除了单纯测序组装外,还出现了Hi-C辅助基因组组装,光学图谱辅助基因组组装等产品 对于分析而言,pacbio公司整合了许多的组装软件,专门针对三代测序数据进行组装;对于二代测序平台的数据,有很多开源软件可供选择,主流的包括以下几种 soapdenovo allpaths-lg Velvet spades Abyss soapdenovo是由华大开发的组装工具,主要用于动植物基因组等大型基因组组装,也可以用于细菌/真菌基因组组装。 对于大型基因组装而言,需要的硬件资源特别多,建议内存在150G以上。

    2.4K10发布于 2020-05-08
  • 来自专栏小明的数据分析笔记本

    细胞器基因组组装利器~GetOrganelle~推荐组装命令介绍

    GetOrganelle推荐组装命令介绍--reads开始 优先推荐的命令--auto(高等植物叶绿体基因组) get_organelle_from_reads.py -1 sample_1.fastq.gz output-plastome -R 10 -t 1 -k 21,45,65,85,105 命令中的参数说明 -1和-2 正向和反向测序原始数据文件 (如果是单向测序, -u) -F 设定要组装基因组类型 组装高等植物线粒体基因组的命令 get_organelle_from_reads.py -1 sample_1.fastq.gz -2 sample_2.fastq.gz -w 0.6 -F embplant_mt -o output-plastome 命令中的参数说明 -g SPAdes组装得到的FASTG的assembly graph -F 设定要组装基因组类型 -o graph -F 设定要组装基因组类型 -o 结果输出保存的目录(文件夹)名称 --min-depth 剔除graph中depth

    8.5K71发布于 2021-04-21
  • 来自专栏微生态与微进化

    组装基因组群落分析

    基因组数据可以不经组装,直接将测序获得的reads比对到公共数据库中,利用比对到的数据库序列的物种归属信息对reads进行物种分类,从而快速获得群落的物种组成信息。 宏基因组分析Pipeline 测序数据的解析:Fastq与FastQC 测序数据的质控:Trimmomatic! 测序数据的筛选:去除宿主序列 测序数据的组装:常用软件工具 免组装基因组群落分析 更新中…… 01 KAIJU KAIJU(http://kaiju.binf.ku.dk/)是一个对宏基因组高通量测序数据进行物种分类的工具 进化分支特异的maker(Clade-specific markers)需要满足在该分支内的基因组中是保守的,并且与分支外的基因组序列不相似。 在MetaPhlAn中,物种分类准确性在于物种的基因组数据是否足够丰富,越丰富,marker的信息越准确,此处用2887个基因组数据进行的marker计算。

    1.1K40编辑于 2022-05-05
  • 来自专栏数据科学(冷冻工厂)

    基因组组装:NextDenovo2 使用大全

    简介 NextDenovo 是一种针对长序列读取(包括CLR和ONT技术)的新型基因组组装工具。 结果显示,NextDenovo在生成较少片段的连续性组装方面表现更佳。此外,NextDenovo在组装的一致性和单个碱基的精确度上也展现出了较高的准确性水平。 read_cutoff = 1k # reads 截断 过滤器读取长度< read_cutoff(默认值:1k) genome_size = 3g # estimated genome size 基因组大小 要点 组装大小小于预期基因组大小时的参数调整 对于高度杂合的基因组,可以尝试设置nextgraph_options = -a 1 -A。 可以选择nd.asm.p.fasta作为最终组装结果,但应首先验证组装质量。

    1.1K10编辑于 2024-04-28
  • 来自专栏生信修炼手册

    hi-c辅助基因组组装简介

    除此之外,hi-c数据还有一个应用领域,那就是可以用来辅助基因组组装。 在NGS不断发展的今天,测序组装得到一个物种的基因组草图是一个非常容易的事情。 由于NGS的诸多限制性因素,比如GC含量,测序读长, mapping准确率等无法回避的问题,对于高重复序列,高杂合度的基因组,利用NGS测序数据,想要组装到染色体级别是一件非常困难的事情,特别是对于大型动植物的基因组组装而言 当然三代测序凭借其长读长的优势在基因组组装领域独领风骚,攻克了很多物种的基因组组装难题,但是其高昂的成本也制约着该技术的广泛应用。 .2727 在该文章中,提出了利用hi-c辅助基因组组装的具体思路,如下图所示 ? 结合Hi-C数据,可以明确基因组草图中scaffold和染色体对应关系,确定scaffold之间的排列顺序和方向,进一步提高了组装的精度。

    1.5K30发布于 2019-12-19
  • 来自专栏生信修炼手册

    ALLPATHS-LG基因组组装软件简介

    ALLPATHS-LG 是由Broad Institiute研究所发明的一款基因组组装软件,不论是细菌/真菌等小型基因组,还是动植物等大型基因组组装,它都能够胜任。 要求至少两个文库 第一个文库的插入片段长度不能超过测序读长的两倍,这样可以保证双端测序的reads之间存在overlap,这样的文库类型称之为fragment 第二个文库的插入片段通常大于3kb,超长读长有利于基因组组装组装时,对于硬件资源也有一定的要求,对于哺乳动物基因组,建议内存大小为512G, 对于小基因组,建议内存大小32G。 组装 准备好输入文件之后,就可以进行组装了,命令如下 RunAllPathsLG \ PRE=$PWD\ REFERENCE_NAME=test.genome\ DATA_SUBDIR=data\ RUN OVERWRITE=True 上述命令中的5个参数构成了如下的目录结构 PRE/REFERENCE_NAME/DATA_SUBDIR/RUN/SUBDIR allpaths-lg通过这样的目录结构来存放多个基因组组装的结果

    1.3K10发布于 2020-05-08
  • 来自专栏生信修炼手册

    GAGE:基因组组装评估的金标准

    GAGE全称Genome Assembly Gold-Standard Evaluations,该项目选取了4个物种,然后用常用的几款基因组组装软件分别进行组装,最后对所有组装结果进行评估,为选取基因组组装软件提供了参考 官网如下: http://gage.cbcb.umd.edu/index.html 该项目组织了基因组组装方面的专家团队,对以下4个物种的基因组组装效果进行了评测 Staphylococcus aureus Rhodobacter sphaeroides Human (e.g. chromosome 14) Bombus impatiens (a species of bee) 对于组装而言,最核心的问题是组装软件和参数的设置 对于不同物种不同软件的组装结果,从contig和scaffold 两方面进行了评估。以human为例,评估结果如下 ? 对于一个组装结果而言,其组装序列数目越小,N50越大,说明组装效果越好。 从上表可以看出,Allpaths-LG的组装效果是最好的。 GAGE不仅为选取组装软件提供了参考,同时也可以作为一个基因组组装的学习资源。

    86730发布于 2020-05-08
  • 来自专栏小明的数据分析笔记本

    使用Circlator环化Ecoli基因组组装结果

    canu -d canu_outdir genomeSize=4.8m -pacbio-raw pacbio.fastq -p 输出文件文件名的前缀 -d 输出文件夹的名字 -genomeSize 组装基因组的大小 image.png 使用circlator环化基因组 circlator all --verbose canu_outdir/canu.contigs.fasta canu_outdir/canu.correctedReads.fasta.gz (这句话的意思还没有太理解) samtools提取没有比对到参考基因组的reads samtools index aln.bam samtools fastq -f 4 -l unmapped.R1.fastq 参考文献 1 Pacbio reads: assembly with command line tools 2 canu quica start 3 使用Canu对三代测序进行基因组组装 4 生信小白组装学习系列 :初识Canu与其组装实战训练(3)

    2.7K20发布于 2020-03-03
  • 来自专栏三代测序-说

    基因组 | 三代长读长基因组组装 -- Canu

    今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Canu,既适用于小基因组又适用于大基因组组装,最早是为了应对低碱基质量(high-noise 他在基因组组装和单分子测序算法领域具有深厚的研究背景,开发了 Canu和 HiCanu等基因组组装软件,广泛应用于从微生物到人类的各种基因组组装项目。 长读长的单分子测序技术彻底革新了从头基因组组装(de novo assembly)的方法,并使得构建参考级别质量(reference-quality)的基因组成为可能。 -d:组装文件输出文件夹 genomeSize=4.8m:指定待组装基因组的大小。  先修剪后组装 genomeSize 应为目标样本的单倍体基因组大小的最佳估计。

    75121编辑于 2025-05-29
  • 来自专栏微生态与微进化

    基因组多样品的混合组装

    一般来说,宏基因组测序数据量越大越有利于序列组装,要想深入了解微生物群落往往需要深度测序,然而对于项目中大批量的样品,受制于成本每个样品的测序量不会很大;此外,对于动物组织等特殊样本,去掉宿主序列后剩余的数据往往很少 为了获得更好的拼接结果、得到更多微生物序列,我们可以将项目中相似来源的测序数据进行混合组装。 需要注意的是,混合组装不等于将不同样品的reads合并到一起进行组装,这样反而会给组装带来很大困扰;多样品拼接是一个不同的组装策略,他可以利用序列在不同样本的丰度相关进行聚类并延长。 1 Spades Spades(http://cab.spbu.ru/software/spades/)可用于进行单细菌基因组组装,也能用于宏基因组测序数据,可以进行二代与三代测序数据的混合组装,也支持多样品组装 2 Megahit MEGAHIT(https://github.com/voutcn/megahit)是一个快速的节约内存的宏基因组二代测序数据拼接工具,也可以适用于单基因组组装

    2.8K30编辑于 2022-05-05
  • 来自专栏三代测序-说

    基因组 | 三代长读长基因组组装 -- Flye

    今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Flye,可用于进行小型细菌到哺乳动物基因组组装。 准确的基因组组装常常受到重复区域的干扰。尽管单分子长读长测序数据比短读长数据能更好的解析基因组中的重复序列,但大多数长读长组装算法并不能提供构建最优组装所需的重复特征信息。 与现有组装工具相比,Flye 生成的人类基因组组装在连续性方面(通过 NGA50 组装质量指标衡量)几乎提高了一倍 (图2)。 目前,Flye 对二倍体基因组组装会输出合并(collapsed)的组装结果。如果希望获得phased单倍型,可以在组装完成后使用 HapDup 工具进行处理。 使用 --meta 选项可以启用宏基因组或覆盖度不均的样本组装模式。

    69721编辑于 2025-05-27
  • 来自专栏生信技能树

    HiC数据辅组基因组组装之Lachesis

    通过第一讲:三维基因组学习笔记,我们了解了3D基因组研究范围,然后根据我在生信技能树发布的生信工程师标准提炼出基础技能,也就是第二讲:生信基础技能 。 但是咱们这个lachesis是2013年发表在nature biotechnology上(https://doi.org/10.1038/nbt.2727 )由shendurelab开发的用于辅助基因组组装的软件

    4K30发布于 2018-09-21
  • 来自专栏智能生信

    metaMIC:从头宏基因组组装的无参考错误组装识别和校正

    reference-free misassembly identification and correction of de novo metagenomic assemblies 论文摘要 评估宏基因组组装的质量对于构建可靠的宏基因组组装基因组和下游分析非常重要 作者开发了 metaMIC (https://github.com/ZhaoXM-Lab/metaMIC),这是一种基于机器学习的工具,用于识别和纠正宏基因组组装中的错误组装。 模拟和真实数据集的基准测试结果表明,metaMIC 在识别错误组装的重叠群时优于现有工具。此外,metaMIC 能够定位错误组装断点,并且通过在错误组装断点处拆分来纠正错误组装可以改善下游任务。

    47430编辑于 2022-12-29
  • 来自专栏科技记者

    脚本分享—快速统计基因组组装结果

    我们小编欢乐豆有个压箱底的 perl 脚本,由于编程语言"洁癖",想要彻底抛弃 perl 语言转向 python,于是他使用 AI 辅助下进行了转换,由于脚本相对简单,转换竟然就成功了。中间发现四种碱基含量百分比和原脚本统计有出入,检查确认是序列大小写没有注意的原因,修改后就完美运行了,这里分享给大家!

    57610编辑于 2024-01-22
领券