首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏简说基因

    参考基因组:小鼠(mm9

    操纵小鼠基因组的能力,加上丰富的疾病模型、近交系和基因组资源,使小鼠成为哺乳动物生物学遗传方法的首要模式生物。 目前小鼠的参考基因组有:mm9,mm10 以及 GRCm39(2024-06-12)。本文介绍 mm9 基因组的下载方法。 参考基因组下载(mm9) 下载参考基因组: https://hgdownload.soe.ucsc.edu/goldenPath/mm9/bigZips/mm9.fa.gz 下载基因注释文件: https 等需要的参考基因组索引了。 最后的话 目前小鼠的参考基因组 mm9 已经可以在 UseGalaxy.cn 平台使用了。如果您需要其他参考基因组,请随时告诉我们。

    61610编辑于 2024-06-13
  • 来自专栏简说基因

    基因组比对,唯快不破 :原本需要一周完成的9万个基因组比对,现在只需数小时

    在比较基因组分析中,探究不同基因组间的进化关系是常态,常用方法之一是借助标记蛋白构建系统发育树。为量化这些关系,我们计算基因组间的相似性或进化距离,以分类物种、比较亲缘等。 其中,平均核苷酸相似度(ANI)是衡量两个基因组核苷酸层面亲缘关系的指标,它针对微生物基因组同源片段的平均碱基相似度,尤其擅长区分近缘物种。 全基因组友好 • 不论是完整基因组还是草图基因组(如纳米孔测序数据,N50>10kbp),FastANI 的准确性和基于 BLAST 的 ANI 计算方法不相上下。 新物种鉴定 快速筛选相似基因组,辅助新物种发现。当发现疑似新物种时,用FastANI比对NCBI数据库,若所有结果<95%即可能为新物种。 2. 进化研究 分析基因组保守区域,揭示物种进化关系。 总结 FastANI重新定义了微生物基因组比较的标准——它像基因组的"扫码枪",用速度打破数据量的桎梏,用精度守护物种界限的权威。

    63310编辑于 2025-02-28
  • 来自专栏数据科学(冷冻工厂)

    三维基因组基因组结构 (2)

    本系列将更新三维基因组相关内容,欢迎关注! 二维顺式元件 术语 cis 源自拉丁语词根“cis”,意思是“同一侧”。相比之下,“trans”一词来自拉丁语词根“trans”,意思是“对面”。 人们发现它聚集在拓扑关联域(TAD)的边界,并且可能在将基因组划分为“染色体邻域”(发生调控的基因组区域)方面发挥作用。 TAD 拓扑结构域 拓扑关联域 (TAD) 是一个自相互作用的基因组区域,这意味着 TAD 内的 DNA 序列之间的物理相互作用比 TAD 外的序列更频繁。 基因组到 TAD 的空间划分与许多线性基因组特征相关,例如组蛋白修饰、协调基因表达、与核纤层和 DNA 复制时间的关联、增强子-启动子相互作用。 染色质环 人们已经认识到,像启动子-增强子这样的顺式调控元件通常沿着脊椎动物的线性基因组远离。然而,为了引发调节作用,基因组结构进化形成一个环,将两个元素聚集到空间上接近的位置。

    45510编辑于 2024-03-02
  • 来自专栏小明的数据分析笔记本

    基因组文献007~Genome Biology 玉米泛基因组

    make 安装成功了,多了一个popins的可执行文件 这里运行pan04_popins_pipe.sh 是使用popins这个软件,这里会有报错会有报错,查了一下这个链接有讨论,这个链接的讨论是玉米泛基因组论文的作者

    90310编辑于 2023-01-06
  • 基因组测序简介

    基因组变量分析方面的合作。 本文是三篇关于使用K-Means,ADAM和Apache Spark的基因组变异分析系列文章的第一篇: 基因组测序简介 并行化基因组变量分析 基于基因组变量和K-均值算法的地理种群预测 介绍 在过去的几年里 我们将重点关注基因组变量分析——即基因组序列之间的差异,以及这项技术如何通过使用Databricks社区版的Apache Spark和ADAM(一个可扩展的基因组处理API和CLI)加速。 [5a2b5dr3mk.jpeg] 基因组测序简介 基因组测序就是使用化学方法和记录技术依次(按顺序)读取编码基因组的字符(A,G,C,T)。 Timothy Danford的演讲文件(关于基因组学与Spark) 孟德尔基因组学中心揭示了上百种罕见病的基因组学基础 NIH基因组测序工程,针对的目标是常见病和罕见病的基因 1000基因组计划 同样

    1.7K50发布于 2018-02-01
  • 来自专栏生信菜鸟团

    玩转参考基因组

    在研究基因序列层面变化的时候,对基因组序列有一个全面的认知及学会怎么对序列基本操作十分重要。 参考基因组简介 1.1 参考基因组基本格式 参考基因组是以 .fa 结尾的 FASTA 格式文件。 参考基因组注释文件 2.1 注释文件基本格式 参考基因组注释文件提供了关于基因组序列的详细信息,包括基因的位置、功能、转录本、外显子、内含子等。 GTF文件由9个字段组成,每个字段用制表符分隔: seqname:序列名称,通常是染色体编号(如*chr1、chrX*)或其他序列标识符。 liftOver CrossMap 参考基因组索引 3.1 参考基因组索引简介 参考基因组索引被称为基因组目录,为 FAI 格式文件,通常由 samtools faidx 命令生成。 快速了解自己的参考基因组 4.1 查看参考基因组大小 这里强烈推荐SeqKit工具。

    1.1K11编辑于 2025-04-15
  • 来自专栏生信喵实验柴

    基因组拼接探索

    背景 在之前介绍的基因组拼接,主要是二代illumina测序的拼接,其中使用不同的软件,及每个软件对应的不同的参数,会得到不同的结果,那么怎么选取软件和参数呢,下面着重介绍这些,当然取决于你的实验数据

    50120编辑于 2022-05-23
  • 来自专栏生信喵实验柴

    了解基因组拼接

    背景 为什么要拼接基因组? 序列拼接也叫做基因组组装,是生物数据分析中最核心的工作。想要从基因组学角度来对一个生物进行研究,那么获得物种的全基因组序列,也就获得了其全部的遗传信息。 就可以进行结构基因组学、功能基因组学以及比较基因组学的分析了。 其次,这些分析都依赖于序列拼接的结果,拼接结果的质量直接影响到后面分析结果的质量。 当前虽然有很多物种基因组被发表出来,但这些基因组依然不是“完美的”,就拿做的最多的人基因组来说,目前使用的 hg38 人基因组上,依然有 8%左右的区域没有被拼接好。 1、病毒:基因组较小,突变率高,高度杂合,测序覆盖度高,测序数据中包含宿主基因组,拼接难度大; 2、细菌基因组基因组较小,单倍体,基因组大小一般都小于 10M,重复率低,可以进行纯培养,最容易拼接 8、小基因组:线粒体,叶绿体、质粒等,需要与“宿主”分开,很难分; 9、转录组数据:转录本数据非全基因组,只需拼接出完整转录本即可,不追求“长度”; 10、宏转录组:宏基因组与转录组组合

    1.5K21编辑于 2022-04-07
  • 来自专栏生信喵实验柴

    基因组简介

    二、研究对象 宏基因组研究是微生物研究的延伸,传统微生物研究都可以采用宏基因组测序的方法。只要有微生物的地方,都可以采用宏基因组研究的方法。 环境基因组学第一次提出特定生态条件下,全部生物基因组总体概念,这是基因组学的重要进展。 6:基于测序的人相关菌群的鉴定 1998 里程碑 7:成人菌群的稳定性和个体性 2003 里程碑 8:细菌之外:研究宿主相关的其它微生物 2004 里程碑 99、Home Microbiome 计划 Home Microbiome计划是由Argonne National 实验室的PI Jack Gilbert,博士后Daniel Smith和技术人员 9 相似物种的干扰: 宏基因组样本是一个微生物的混合群落,里面的物种会有来自同一种或者同一属及以上水平的物种,这些物种基因组序列具有相似性,比如基因组同源性达到 70%。

    4.8K20编辑于 2023-02-24
  • 来自专栏生信喵实验柴

    基因组拼接原理

    背景 前面我们了解了基因组拼接,今天给大家带来的是拼接原理。了解实验原理,就是为了我们更好地做实验。 一、拼接原理 序列拼接也叫做基因组组装。 我们常说基因组是一部天书,比如人全基因组有 30 亿个碱基对,那么要是打印出来,真的是一部天书。 二、了解kmer 如何估计基因组大小 获取一个物种的基因组大小是一件非常重要的工作。在测序之前知道了基因组的大小,我们就可以根据这个值来决定测序的数据量。 例如人的基因组是 3G,我们测 10 倍的数据量就刚好是 30G。而且也可以根据基因组大小,估计 denovo 基因组软件对机器内存的要求。如果基因组太大。 所以,获取基因组大小是非常重要的。 那么如何来获取基因组的大小呢。一般物种的基因组大小可以从(http://www.genomesize.com/ )这个数据库查到。

    2.5K20编辑于 2022-04-07
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (1)

    ,填补了此前几十年人类基因组研究留下的空白:大约 8% 的人类基因组序列「黑洞」,这些区域因为序列复杂性,一直无法被破译,尽管 2003 年国际人类基因组计划(HGP)曾经号称已经「完成了」人类基因组图谱绘制的工作 全基因组版块先主要以人类重测序分析为主,后期陆续加入小鼠,动植物(挖坑,思路和使用软件类似)。 癌症基因组还包括大规模结构变异,例如大的插入、缺失、逆转、重复、易位和基因融合, 使得三代测序及分析能够提供有关癌症基因组复杂性最全面的观点。 本次以人类基因组重测序变异分析为引,先分享PacBio的分析流程,然后是ONT平台的分析流程,还会加入串联重复序列,染色体分型,拷贝数变异,融合基因以及基因组甲基化修饰的分析。 先放一张PacBio人类基因组变异分析的流程图,我们会根据流程图的顺序讲解每个软件的具体使用方法,最后串联成 pipeline 进行数据的批量分析,我们下节见! 图片

    82150编辑于 2023-10-19
  • 来自专栏实验盒

    GenomeOcean:基于宏基因组的大规模基因组基础模型

    GenomeOcean,通过整合宏基因组数据和先进的计算架构,显著提升了效率和功能表征能力,为基因组研究开辟了新路径。 背景与挑战 当前的基因组研究大多依赖参考基因组,但这些数据偏向于高丰度、可培养的微生物,导致对稀有微生物及其基因组特性的解析能力有限。 为应对这些挑战,GenomeOcean 借助大规模宏基因组数据和创新算法设计,显著提升了对基因组数据的处理效率和功能解析能力。 GenomeOcean 的核心创新 1. 未来展望 GenomeOcean 的出现为宏基因组研究、天然产物发现和合成生物学设定了新的基准。这一模型不仅有效提升了基因组数据的处理效率,还为复杂基因组功能的解析提供了全新工具。 总结 GenomeOcean 通过宏基因组数据驱动和高效架构设计,实现了基因组基础模型的跨越式发展。

    56510编辑于 2025-02-08
  • 来自专栏小明的数据分析笔记本

    跟着PNAS学数据分析:泛基因组(pan-genome)分析核心基因组可变基因组大小

    ,获得一个图基因组,图基因组包含边和节点,节点是序列。 然后把每个基因组单独比对回图基因组,可以判断图基因组中节点是否被覆盖,如果所有基因组都覆盖这个节点,这个节点就是核心基因组的一部分,否则就是可变基因组 这里需要理解一下gfa格式的文件 论文提供了分析流程用到的代码 /Sha.chr.all.v2.0.fasta -o 00.assembly/Sha.fa minigraph构建图基因组,参考基因组放第一个位置 time minigraph --inv no -xggs 1000000,"M")})+ labs(x="Sample Number",y="Genome Size")+ scale_fill_manual(values = c("#4da0a0","#9b3a74 "))+ scale_color_manual(values=c("#4da0a0","#9b3a74")) library(patchwork) p1+p2 image.png

    6.2K31编辑于 2023-12-19
  • 来自专栏碱基矿工

    人类基因组时代的泛基因组

    ----/ START /---- 今天想分享一个主题:人类基因组时代的泛基因组学。 这里我参照萨尔兹伯格的综述文章将内容分为以下 6 个部分,同时也融入部分我对泛基因组学的理解: 单一“参考基因组”分析模式的局限; “泛基因组学”概念的由来和定义 构建物种泛基因组的意义; 人类泛基因组的构建 我们熟知的 “人类基因组计划(HGP)” 测序得到的基因组序列其实只是人类这个物种少量个体的基因组序列,我们将它称之为“人类基因组参考序列”,它由若干个高加索人的基因组序列合并而成。 这个图基因组可以依据新序列的加入不断扩展变化,最终它将会成为一个符合全人群的泛基因组图谱。这和上面的线性基因组是不同的,图基因组是一个二维序列图谱。 泛基因组分析的应用和未来展望 关于泛基因组分析的应用,其实在上文就已经有所阐述了。概括来讲,泛基因组分析可以提升我们对物种基因组的认识,能够获得新见解。

    1.3K20发布于 2020-09-29
  • 来自专栏生信宝典

    Nature Plants | 基因组所张兴坦团队合作构建茶树泛基因组,助力基因组辅助育种

    为了解决这些问题,科学家们提出了利用泛基因组(Pan-genome)辅助育种技术,有望实现更快速地植物性状改良。泛基因组包含更加全面的遗传信息,可以有效降低参考基因组偏差对遗传变异检测的影响。 通过茶树基因组的结构变异分析,发现茶树基因组中的结构变异序列(SVs)大多源自于转座元件(TEs),TE的高度活跃性产生了基因组中大量SV。 同时,新发现一个潜在参与早芽性状(EBF)基因CYP72A9(图4)。该研究揭示了pan-GWAS在识别茶叶性状相关遗产变异的有效性。 一个61 kb的结构变异(SV_2_83963),位于CsCYP72A9(TGY012913)的上游。f. 群体分析支持CsCYP72A9上游的SV_2_83963与TBF性状相关。 Res. 9, uhac086 (2022). 论文链接: https://www.nature.com/articles/s41477-023-01565-z

    61210编辑于 2023-11-29
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析 (PacBio)(6)-- ANNOVAR

    如果将个体基因组与参考基因组相比,变异的数量是巨大的。 据估计(1),全球范围内人类的基因组中总共有超过8800万个变异(包括约8470万个单核苷酸多态性、360万个短插入/缺失变异和约6万个结构变异)。 但如果只考虑你和我两个人,我们基因组上的差别并没有这么多,因为在上述8800万个变异位点上我们的序列很大可能是相同的。 实际上,如果我们和人类参考基因组GRch38相比,那么我们的基因组差异大概在400-500万个(其中超过99.9%是单核苷酸多态性和短片段插入缺失变异),手动检查每个位点非常耗时且有些不切实际。 ANNOVAR能够利用最新的数据来分析各种基因组中的遗传变异。

    1.7K21编辑于 2023-12-07
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (5)-- pbsv

    目前该技术广泛应用于基因组Denovo组装、全长转录本检测、宏基因组基因组重测序等多个方向,并且在染色体结构变异(Structure Variation, SV)的检测中有着不可替代的优势。 据统计,基因组结构变异可能导致的遗传性疾病已经超过1,000种,对于每个人来讲其基因组都有至少20,000个的结构变异,这些变异带来的影响或许比SNVs或InDels带来的影响更大。 三代测序的长读长能够很有效的跨越覆盖识别出结构变异位点,得到结构变异的全貌,轻松测通基因组上的复杂重复区域。 SMRT-SV2由Audano et al.发表于2019年 (9),替代SMRT-SV。 获得单个或者所有样本的结构变异和基因型,.svsig.gz到.vcf 具体分析命令 数据我们还是使用德系犹太人家系:HG002(子)、HG003(父)、HG004(母),具体参考全基因组 - 人类基因组变异分析

    2.1K00编辑于 2023-11-24
  • 来自专栏三代测序-说

    基因组 | 三代长读长基因组组装 -- Canu

    今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Canu,既适用于小基因组又适用于大基因组的组装,最早是为了应对低碱基质量(high-noise (NHGRI)基因组信息学部门的Sergey Koren博士(图1)。 他在基因组组装和单分子测序算法领域具有深厚的研究背景,开发了 Canu和 HiCanu等基因组组装软件,广泛应用于从微生物到人类的各种基因组组装项目。 长读长的单分子测序技术彻底革新了从头基因组组装(de novo assembly)的方法,并使得构建参考级别质量(reference-quality)的基因组成为可能。 这里设置为 4.8m,表示预估的基因组大小为 4,800,000 个碱基对。

    78321编辑于 2025-05-29
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析 (PacBio)(7)-- AnnotSV

    基因组结构变异(structure variant, SV)是基因组变异的重要组成部分,大片段插入(Insertion, INS)、缺失(Deletion, DEL)、倒位(Inversion, INV 第三代基因组测序因其读长较长,可轻松跨越重复区域和基因组复杂区域,能够更全面的检测基因组的SV。 它可以把鉴定出的结构变异与各种已知的功能基因组数据库进行比对,给出丰富的注释信息,其中包括 (1): 基因注释:使用refSeq或者Ensembl基因数据库注释结构变异重叠的已知基因。 ACMG,全称为American College of Medical Genetics and Genomics美国医学遗传学与基因组学学会。

    1.4K10编辑于 2023-12-09
  • 来自专栏三代测序-说

    基因组 | 三代长读长基因组组装 -- Flye

    今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Flye,可用于进行小型细菌到哺乳动物基因组的组装。 准确的基因组组装常常受到重复区域的干扰。尽管单分子长读长测序数据比短读长数据能更好的解析基因组中的重复序列,但大多数长读长组装算法并不能提供构建最优组装所需的重复特征信息。 此外,Flye 还提供了专门用于宏基因组组装的模式。 目前,Flye 对二倍体基因组的组装会输出合并(collapsed)的组装结果。 对于使用 Guppy 5+ 进行碱基识别的 R9 测序数据,请使用 --nano-hq --read-error 0.05,预期错误率为 <5%。 对于较早期的 ONT 数据(例如 R7 或旧版 R9 化学试剂),请使用 --nano-raw,预期错误率为 10-15%。

    74921编辑于 2025-05-27
领券