首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学(冷冻工厂)

    三维基因组基因组结构 (2)

    本系列将更新三维基因组相关内容,欢迎关注! 二维顺式元件 术语 cis 源自拉丁语词根“cis”,意思是“同一侧”。相比之下,“trans”一词来自拉丁语词根“trans”,意思是“对面”。 人们发现它聚集在拓扑关联域(TAD)的边界,并且可能在将基因组划分为“染色体邻域”(发生调控的基因组区域)方面发挥作用。 TAD 拓扑结构域 拓扑关联域 (TAD) 是一个自相互作用的基因组区域,这意味着 TAD 内的 DNA 序列之间的物理相互作用比 TAD 外的序列更频繁。 基因组到 TAD 的空间划分与许多线性基因组特征相关,例如组蛋白修饰、协调基因表达、与核纤层和 DNA 复制时间的关联、增强子-启动子相互作用。 染色质环 人们已经认识到,像启动子-增强子这样的顺式调控元件通常沿着脊椎动物的线性基因组远离。然而,为了引发调节作用,基因组结构进化形成一个环,将两个元素聚集到空间上接近的位置。

    45510编辑于 2024-03-02
  • 来自专栏小明的数据分析笔记本

    基因组文献007~Genome Biology 玉米泛基因组

    make 安装成功了,多了一个popins的可执行文件 这里运行pan04_popins_pipe.sh 是使用popins这个软件,这里会有报错会有报错,查了一下这个链接有讨论,这个链接的讨论是玉米泛基因组论文的作者

    90310编辑于 2023-01-06
  • 基因组测序简介

    基因组变量分析方面的合作。 本文是三篇关于使用K-Means,ADAM和Apache Spark的基因组变异分析系列文章的第一篇: 基因组测序简介 并行化基因组变量分析 基于基因组变量和K-均值算法的地理种群预测 介绍 在过去的几年里 我们将重点关注基因组变量分析——即基因组序列之间的差异,以及这项技术如何通过使用Databricks社区版的Apache Spark和ADAM(一个可扩展的基因组处理API和CLI)加速。 [5a2b5dr3mk.jpeg] 基因组测序简介 基因组测序就是使用化学方法和记录技术依次(按顺序)读取编码基因组的字符(A,G,C,T)。 Timothy Danford的演讲文件(关于基因组学与Spark) 孟德尔基因组学中心揭示了上百种罕见病的基因组学基础 NIH基因组测序工程,针对的目标是常见病和罕见病的基因 1000基因组计划 同样

    1.7K50发布于 2018-02-01
  • 来自专栏生信菜鸟团

    玩转参考基因组

    在研究基因序列层面变化的时候,对基因组序列有一个全面的认知及学会怎么对序列基本操作十分重要。 参考基因组简介 1.1 参考基因组基本格式 参考基因组是以 .fa 结尾的 FASTA 格式文件。 因为是按照字符排序的,"1"、"10"、"11"、"2"这样的顺序,所以1 号染色体后就是10 号染色体。 liftOver CrossMap 参考基因组索引 3.1 参考基因组索引简介 参考基因组索引被称为基因组目录,为 FAI 格式文件,通常由 samtools faidx 命令生成。 CGTAGCTAGC TAGCTAGCTA CCT 使用 samtools faidx 创建的索引文件 fasta.fai 可能会是这样的: chr1 20 6 10 11 chr2 23 34 10 11 chr1 的偏移量(6): > 和 chr1 占用 5 个字节。

    1.1K11编辑于 2025-04-15
  • 来自专栏生信喵实验柴

    基因组拼接探索

    背景 在之前介绍的基因组拼接,主要是二代illumina测序的拼接,其中使用不同的软件,及每个软件对应的不同的参数,会得到不同的结果,那么怎么选取软件和参数呢,下面着重介绍这些,当然取决于你的实验数据

    50120编辑于 2022-05-23
  • 来自专栏生信喵实验柴

    了解基因组拼接

    背景 为什么要拼接基因组? 序列拼接也叫做基因组组装,是生物数据分析中最核心的工作。想要从基因组学角度来对一个生物进行研究,那么获得物种的全基因组序列,也就获得了其全部的遗传信息。 就可以进行结构基因组学、功能基因组学以及比较基因组学的分析了。 其次,这些分析都依赖于序列拼接的结果,拼接结果的质量直接影响到后面分析结果的质量。 当前虽然有很多物种基因组被发表出来,但这些基因组依然不是“完美的”,就拿做的最多的人基因组来说,目前使用的 hg38 人基因组上,依然有 8%左右的区域没有被拼接好。 通过知道物种的基因组大小,能够初步预估计算的复杂度。以及根据基因组大小决定测序数据量。基因组大小也是拼接完评估的一个重要指标。 1、病毒:基因组较小,突变率高,高度杂合,测序覆盖度高,测序数据中包含宿主基因组,拼接难度大; 2、细菌基因组基因组较小,单倍体,基因组大小一般都小于 10M,重复率低,可以进行纯培养,最容易拼接

    1.5K21编辑于 2022-04-07
  • 来自专栏生信喵实验柴

    基因组简介

    二、研究对象 宏基因组研究是微生物研究的延伸,传统微生物研究都可以采用宏基因组测序的方法。只要有微生物的地方,都可以采用宏基因组研究的方法。 EBI 宏基因组测序样品分类统计 三、发展历史 宏基因组的发展与测序技术的发展是息息相关的,正是因为高通量测序的出现,才让宏基因组测序成为可能。 环境基因组学第一次提出特定生态条件下,全部生物基因组总体概念,这是基因组学的重要进展。 里程碑 8:细菌之外:研究宿主相关的其它微生物 2004 里程碑 9:菌群对粘膜免疫的调控 2005 里程碑 10:喂好你的菌群的重要性 2006 里程碑 11 11、中科院人类微生物组计划 2017 年 12 月,中科院微生物组计划由中科院牵头,执行期为两年,总投入三千万元人民币。

    4.8K20编辑于 2023-02-24
  • 来自专栏生信喵实验柴

    基因组拼接原理

    背景 前面我们了解了基因组拼接,今天给大家带来的是拼接原理。了解实验原理,就是为了我们更好地做实验。 一、拼接原理 序列拼接也叫做基因组组装。 我们常说基因组是一部天书,比如人全基因组有 30 亿个碱基对,那么要是打印出来,真的是一部天书。 二、了解kmer 如何估计基因组大小 获取一个物种的基因组大小是一件非常重要的工作。在测序之前知道了基因组的大小,我们就可以根据这个值来决定测序的数据量。 例如人的基因组是 3G,我们测 10 倍的数据量就刚好是 30G。而且也可以根据基因组大小,估计 denovo 基因组软件对机器内存的要求。如果基因组太大。 所以,获取基因组大小是非常重要的。 那么如何来获取基因组的大小呢。一般物种的基因组大小可以从(http://www.genomesize.com/ )这个数据库查到。

    2.5K20编辑于 2022-04-07
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (1)

    ,填补了此前几十年人类基因组研究留下的空白:大约 8% 的人类基因组序列「黑洞」,这些区域因为序列复杂性,一直无法被破译,尽管 2003 年国际人类基因组计划(HGP)曾经号称已经「完成了」人类基因组图谱绘制的工作 全基因组版块先主要以人类重测序分析为主,后期陆续加入小鼠,动植物(挖坑,思路和使用软件类似)。 癌症基因组还包括大规模结构变异,例如大的插入、缺失、逆转、重复、易位和基因融合, 使得三代测序及分析能够提供有关癌症基因组复杂性最全面的观点。 本次以人类基因组重测序变异分析为引,先分享PacBio的分析流程,然后是ONT平台的分析流程,还会加入串联重复序列,染色体分型,拷贝数变异,融合基因以及基因组甲基化修饰的分析。 先放一张PacBio人类基因组变异分析的流程图,我们会根据流程图的顺序讲解每个软件的具体使用方法,最后串联成 pipeline 进行数据的批量分析,我们下节见! 图片

    82150编辑于 2023-10-19
  • 来自专栏实验盒

    GenomeOcean:基于宏基因组的大规模基因组基础模型

    GenomeOcean,通过整合宏基因组数据和先进的计算架构,显著提升了效率和功能表征能力,为基因组研究开辟了新路径。 背景与挑战 当前的基因组研究大多依赖参考基因组,但这些数据偏向于高丰度、可培养的微生物,导致对稀有微生物及其基因组特性的解析能力有限。 为应对这些挑战,GenomeOcean 借助大规模宏基因组数据和创新算法设计,显著提升了对基因组数据的处理效率和功能解析能力。 GenomeOcean 的核心创新 1. 未来展望 GenomeOcean 的出现为宏基因组研究、天然产物发现和合成生物学设定了新的基准。这一模型不仅有效提升了基因组数据的处理效率,还为复杂基因组功能的解析提供了全新工具。 总结 GenomeOcean 通过宏基因组数据驱动和高效架构设计,实现了基因组基础模型的跨越式发展。

    56510编辑于 2025-02-08
  • 来自专栏小明的数据分析笔记本

    跟着PNAS学数据分析:泛基因组(pan-genome)分析核心基因组可变基因组大小

    ,获得一个图基因组,图基因组包含边和节点,节点是序列。 然后把每个基因组单独比对回图基因组,可以判断图基因组中节点是否被覆盖,如果所有基因组都覆盖这个节点,这个节点就是核心基因组的一部分,否则就是可变基因组 这里需要理解一下gfa格式的文件 论文提供了分析流程用到的代码 rearrangements with altered evolutionary dynamics https://www.nature.com/articles/s41467-020-14779-y 这个论文里就做了核心基因组和可变基因组的分析 /Sha.chr.all.v2.0.fasta -o 00.assembly/Sha.fa minigraph构建图基因组,参考基因组放第一个位置 time minigraph --inv no -xggs Eri.fa \ 00.assembly/Kyo.fa \ 00.assembly/Ler.fa \ 00.assembly/Sha.fa > at.gfa 8m50.144s minigraph再把每个基因组比对到图基因组

    6.2K31编辑于 2023-12-19
  • 来自专栏碱基矿工

    人类基因组时代的泛基因组

    ----/ START /---- 今天想分享一个主题:人类基因组时代的泛基因组学。 这里我参照萨尔兹伯格的综述文章将内容分为以下 6 个部分,同时也融入部分我对泛基因组学的理解: 单一“参考基因组”分析模式的局限; “泛基因组学”概念的由来和定义 构建物种泛基因组的意义; 人类泛基因组的构建 我们熟知的 “人类基因组计划(HGP)” 测序得到的基因组序列其实只是人类这个物种少量个体的基因组序列,我们将它称之为“人类基因组参考序列”,它由若干个高加索人的基因组序列合并而成。 这个图基因组可以依据新序列的加入不断扩展变化,最终它将会成为一个符合全人群的泛基因组图谱。这和上面的线性基因组是不同的,图基因组是一个二维序列图谱。 泛基因组分析的应用和未来展望 关于泛基因组分析的应用,其实在上文就已经有所阐述了。概括来讲,泛基因组分析可以提升我们对物种基因组的认识,能够获得新见解。

    1.3K20发布于 2020-09-29
  • 来自专栏生信宝典

    Nature Plants | 基因组所张兴坦团队合作构建茶树泛基因组,助力基因组辅助育种

    为了解决这些问题,科学家们提出了利用泛基因组(Pan-genome)辅助育种技术,有望实现更快速地植物性状改良。泛基因组包含更加全面的遗传信息,可以有效降低参考基因组偏差对遗传变异检测的影响。 茶的多样性 为了更好地理解茶树的遗传特性和表型多样性,由中国农科院深圳农业基因组研究所(简称“基因组所”)张兴坦研究团队主导,联合国内多家单位成功构建茶树首个泛基因组图谱,研究成果于2023年11月28 通过茶树基因组的结构变异分析,发现茶树基因组中的结构变异序列(SVs)大多源自于转座元件(TEs),TE的高度活跃性产生了基因组中大量SV。 Commun. 11, 4447 (2020). 4. Zhang, W. et al. Commun. 11, 3719 (2020). 5. Wang, P. et al.

    61210编辑于 2023-11-29
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析 (PacBio)(6)-- ANNOVAR

    如果将个体基因组与参考基因组相比,变异的数量是巨大的。 据估计(1),全球范围内人类的基因组中总共有超过8800万个变异(包括约8470万个单核苷酸多态性、360万个短插入/缺失变异和约6万个结构变异)。 但如果只考虑你和我两个人,我们基因组上的差别并没有这么多,因为在上述8800万个变异位点上我们的序列很大可能是相同的。 实际上,如果我们和人类参考基因组GRch38相比,那么我们的基因组差异大概在400-500万个(其中超过99.9%是单核苷酸多态性和短片段插入缺失变异),手动检查每个位点非常耗时且有些不切实际。 ANNOVAR能够利用最新的数据来分析各种基因组中的遗传变异。

    1.7K21编辑于 2023-12-07
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (5)-- pbsv

    目前该技术广泛应用于基因组Denovo组装、全长转录本检测、宏基因组基因组重测序等多个方向,并且在染色体结构变异(Structure Variation, SV)的检测中有着不可替代的优势。 据统计,基因组结构变异可能导致的遗传性疾病已经超过1,000种,对于每个人来讲其基因组都有至少20,000个的结构变异,这些变异带来的影响或许比SNVs或InDels带来的影响更大。 4.PAV,Phased Assembly Variant Caller,文章于2021年发表于Science (11),github更新到2023年10月13号(version 2.3.4)。 BioRxiv(13),github更新到2023年7月14号(version 2.2) 7.cuteSV,文章于2020年发表于Genome Biology (14), github上更新至2023年11 获得单个或者所有样本的结构变异和基因型,.svsig.gz到.vcf 具体分析命令 数据我们还是使用德系犹太人家系:HG002(子)、HG003(父)、HG004(母),具体参考全基因组 - 人类基因组变异分析

    2.1K00编辑于 2023-11-24
  • 来自专栏三代测序-说

    基因组 | 三代长读长基因组组装 -- Canu

    今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Canu,既适用于小基因组又适用于大基因组的组装,最早是为了应对低碱基质量(high-noise (NHGRI)基因组信息学部门的Sergey Koren博士(图1)。 他在基因组组装和单分子测序算法领域具有深厚的研究背景,开发了 Canu和 HiCanu等基因组组装软件,广泛应用于从微生物到人类的各种基因组组装项目。 长读长的单分子测序技术彻底革新了从头基因组组装(de novo assembly)的方法,并使得构建参考级别质量(reference-quality)的基因组成为可能。 这里设置为 4.8m,表示预估的基因组大小为 4,800,000 个碱基对。

    78321编辑于 2025-05-29
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析 (PacBio)(7)-- AnnotSV

    基因组结构变异(structure variant, SV)是基因组变异的重要组成部分,大片段插入(Insertion, INS)、缺失(Deletion, DEL)、倒位(Inversion, INV 第三代基因组测序因其读长较长,可轻松跨越重复区域和基因组复杂区域,能够更全面的检测基因组的SV。 它可以把鉴定出的结构变异与各种已知的功能基因组数据库进行比对,给出丰富的注释信息,其中包括 (1): 基因注释:使用refSeq或者Ensembl基因数据库注释结构变异重叠的已知基因。 ACMG,全称为American College of Medical Genetics and Genomics美国医学遗传学与基因组学学会。

    1.4K10编辑于 2023-12-09
  • 来自专栏三代测序-说

    基因组 | 三代长读长基因组组装 -- Flye

    今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Flye,可用于进行小型细菌到哺乳动物基因组的组装。 准确的基因组组装常常受到重复区域的干扰。尽管单分子长读长测序数据比短读长数据能更好的解析基因组中的重复序列,但大多数长读长组装算法并不能提供构建最优组装所需的重复特征信息。 此外,Flye 还提供了专门用于宏基因组组装的模式。 目前,Flye 对二倍体基因组的组装会输出合并(collapsed)的组装结果。 如果你正在使用 Flye 或 metaFlye 来组装异质性的细菌基因组或宏基因组数据,可以考虑使用 strainy 来识别和定量异质性,从而揭示被合并(collapsed)的菌株信息。 使用 --meta 选项可以启用宏基因组或覆盖度不均的样本组装模式。

    75021编辑于 2025-05-27
  • 来自专栏数据科学(冷冻工厂)

    Juicer: 辅助基因组组装

    图片导读本文主要对处理HiC数据的Juicer程序进行一个简短的介绍,并展示如何利用Juicer进行基因组组装中染色体挂载的第一步。1. 目录建立# 新建Juice目录mkdir juicer && cd juicer# 新建参考基因组相关文件目录mkdir references # 新建样本的序列文件和分析结果目录mkdir work 实战下面将详细介绍如何运行Juicer生成merged_nodups.txt文件,用于3D-DNA进行染色体挂载构建基因组索引# 基因组放在jucier/reference 目录下bwa index genome.fa 生成酶切图谱文件# 需要将 DpnII 换为 测序过程使用的酶# genome 替换为 基因组的名字python /home/juicer/misc/generate_site_positions.py 拆分后序列的R1和R2端分别通过bwa比对基因组,然后合并,筛选嵌合体序列,去重复,生成预处理后的结果文件。

    1.1K10编辑于 2023-01-19
  • 来自专栏生信喵实验柴

    拼接病毒基因组

    背景 得到参考序列之后,由于病毒基因组较小,不容易从头拼接,因此可以采用与参考序列比对生成一致性序列的方法。无论是 PCR 扩增产物还是宏基因组测序都可以使用该方法得到新冠基因组。 一、病毒基因组拼接原理 由于不能直接使用原始测序数据进行拼接,目前病毒基因组主要采用基于参考序列指导(reference guide)的方法,所谓生成一致性序列(consensus)的方法。 比如参考序列为 A,比对到这个位点上有 1000 个碱基,其中900 个为 T,100 个为 A,那么我们就选择 T 作为待拼接基因组的碱基类型。 最终我们会得到一条与参考基因组长度一致,只是部分位点有所差异的基因组,作为最终得到的病毒基因组序列。例如下图中,参考序列的基因组为 GTCTG,一致性序列的结果为 GACTC。 所以你看到目前拼接出来的基因组都是 29903,虽然后面通过碱基 Polish 可以插入或者删除部分序列,但整体长度变化不大。

    1.3K20编辑于 2022-04-07
领券