首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学(冷冻工厂)

    三维基因组基因组结构 (2)

    本系列将更新三维基因组相关内容,欢迎关注! 二维顺式元件 术语 cis 源自拉丁语词根“cis”,意思是“同一侧”。相比之下,“trans”一词来自拉丁语词根“trans”,意思是“对面”。 人们发现它聚集在拓扑关联域(TAD)的边界,并且可能在将基因组划分为“染色体邻域”(发生调控的基因组区域)方面发挥作用。 TAD 拓扑结构域 拓扑关联域 (TAD) 是一个自相互作用的基因组区域,这意味着 TAD 内的 DNA 序列之间的物理相互作用比 TAD 外的序列更频繁。 基因组到 TAD 的空间划分与许多线性基因组特征相关,例如组蛋白修饰、协调基因表达、与核纤层和 DNA 复制时间的关联、增强子-启动子相互作用。 染色质环 人们已经认识到,像启动子-增强子这样的顺式调控元件通常沿着脊椎动物的线性基因组远离。然而,为了引发调节作用,基因组结构进化形成一个环,将两个元素聚集到空间上接近的位置。

    45110编辑于 2024-03-02
  • 来自专栏小明的数据分析笔记本

    基因组文献007~Genome Biology 玉米泛基因组

    make 安装成功了,多了一个popins的可执行文件 这里运行pan04_popins_pipe.sh 是使用popins这个软件,这里会有报错会有报错,查了一下这个链接有讨论,这个链接的讨论是玉米泛基因组论文的作者

    89810编辑于 2023-01-06
  • 基因组测序简介

    基因组变量分析方面的合作。 本文是三篇关于使用K-Means,ADAM和Apache Spark的基因组变异分析系列文章的第一篇: 基因组测序简介 并行化基因组变量分析 基于基因组变量和K-均值算法的地理种群预测 介绍 在过去的几年里 我们将重点关注基因组变量分析——即基因组序列之间的差异,以及这项技术如何通过使用Databricks社区版的Apache Spark和ADAM(一个可扩展的基因组处理API和CLI)加速。 [5a2b5dr3mk.jpeg] 基因组测序简介 基因组测序就是使用化学方法和记录技术依次(按顺序)读取编码基因组的字符(A,G,C,T)。 Timothy Danford的演讲文件(关于基因组学与Spark) 孟德尔基因组学中心揭示了上百种罕见病的基因组学基础 NIH基因组测序工程,针对的目标是常见病和罕见病的基因 1000基因组计划 同样

    1.7K50发布于 2018-02-01
  • 来自专栏生信菜鸟团

    玩转参考基因组

    在研究基因序列层面变化的时候,对基因组序列有一个全面的认知及学会怎么对序列基本操作十分重要。 参考基因组简介 1.1 参考基因组基本格式 参考基因组是以 .fa 结尾的 FASTA 格式文件。 以 human 基因组为例。 在参考基因组中,每一个染色体第一行都是以 “>” 开头的描述序列的头部行(header line),数据库的不同,这里的信息可能略有不同。 参考基因组注释文件 2.1 注释文件基本格式 参考基因组注释文件提供了关于基因组序列的详细信息,包括基因的位置、功能、转录本、外显子、内含子等。 liftOver CrossMap 参考基因组索引 3.1 参考基因组索引简介 参考基因组索引被称为基因组目录,为 FAI 格式文件,通常由 samtools faidx 命令生成。 快速了解自己的参考基因组 4.1 查看参考基因组大小 这里强烈推荐SeqKit工具。

    1K11编辑于 2025-04-15
  • 来自专栏生信喵实验柴

    基因组简介

    广义宏基因组:泛指研究微生物组的学科—宏基因组学(Metagenomics),狭义仅指宏基因组测,区别于扩增子测序与宏转录组测序,主要分析样品物种组成与功能基因。 二、研究对象 宏基因组研究是微生物研究的延伸,传统微生物研究都可以采用宏基因组测序的方法。只要有微生物的地方,都可以采用宏基因组研究的方法。 EBI 宏基因组测序样品分类统计 三、发展历史 宏基因组的发展与测序技术的发展是息息相关的,正是因为高通量测序的出现,才让宏基因组测序成为可能。 环境基因组学第一次提出特定生态条件下,全部生物基因组总体概念,这是基因组学的重要进展。 而宏基因组包含未知种类和数目的微生物,并且由于宏基因组测序数据量较大,分析难度也水涨船高。宏基因组数据分析需要微生物学,计算机,统计学等基础。

    4.8K20编辑于 2023-02-24
  • 来自专栏生信喵实验柴

    了解基因组拼接

    背景 为什么要拼接基因组? 序列拼接也叫做基因组组装,是生物数据分析中最核心的工作。想要从基因组学角度来对一个生物进行研究,那么获得物种的全基因组序列,也就获得了其全部的遗传信息。 就可以进行结构基因组学、功能基因组学以及比较基因组学的分析了。 其次,这些分析都依赖于序列拼接的结果,拼接结果的质量直接影响到后面分析结果的质量。 当前虽然有很多物种基因组被发表出来,但这些基因组依然不是“完美的”,就拿做的最多的人基因组来说,目前使用的 hg38 人基因组上,依然有 8%左右的区域没有被拼接好。 通过知道物种的基因组大小,能够初步预估计算的复杂度。以及根据基因组大小决定测序数据量。基因组大小也是拼接完评估的一个重要指标。 1、病毒:基因组较小,突变率高,高度杂合,测序覆盖度高,测序数据中包含宿主基因组,拼接难度大; 2、细菌基因组基因组较小,单倍体,基因组大小一般都小于 10M,重复率低,可以进行纯培养,最容易拼接

    1.5K21编辑于 2022-04-07
  • 来自专栏生信喵实验柴

    基因组拼接探索

    背景 在之前介绍的基因组拼接,主要是二代illumina测序的拼接,其中使用不同的软件,及每个软件对应的不同的参数,会得到不同的结果,那么怎么选取软件和参数呢,下面着重介绍这些,当然取决于你的实验数据

    50120编辑于 2022-05-23
  • 来自专栏生信喵实验柴

    基因组拼接原理

    背景 前面我们了解了基因组拼接,今天给大家带来的是拼接原理。了解实验原理,就是为了我们更好地做实验。 一、拼接原理 序列拼接也叫做基因组组装。 我们常说基因组是一部天书,比如人全基因组有 30 亿个碱基对,那么要是打印出来,真的是一部天书。 二、了解kmer 如何估计基因组大小 获取一个物种的基因组大小是一件非常重要的工作。在测序之前知道了基因组的大小,我们就可以根据这个值来决定测序的数据量。 例如人的基因组是 3G,我们测 10 倍的数据量就刚好是 30G。而且也可以根据基因组大小,估计 denovo 基因组软件对机器内存的要求。如果基因组太大。 所以,获取基因组大小是非常重要的。 那么如何来获取基因组的大小呢。一般物种的基因组大小可以从(http://www.genomesize.com/ )这个数据库查到。

    2.5K20编辑于 2022-04-07
  • 来自专栏实验盒

    GenomeOcean:基于宏基因组的大规模基因组基础模型

    GenomeOcean,通过整合宏基因组数据和先进的计算架构,显著提升了效率和功能表征能力,为基因组研究开辟了新路径。 背景与挑战 当前的基因组研究大多依赖参考基因组,但这些数据偏向于高丰度、可培养的微生物,导致对稀有微生物及其基因组特性的解析能力有限。 为应对这些挑战,GenomeOcean 借助大规模宏基因组数据和创新算法设计,显著提升了对基因组数据的处理效率和功能解析能力。 GenomeOcean 的核心创新 1. 未来展望 GenomeOcean 的出现为宏基因组研究、天然产物发现和合成生物学设定了新的基准。这一模型不仅有效提升了基因组数据的处理效率,还为复杂基因组功能的解析提供了全新工具。 总结 GenomeOcean 通过宏基因组数据驱动和高效架构设计,实现了基因组基础模型的跨越式发展。

    55910编辑于 2025-02-08
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (1)

    ,填补了此前几十年人类基因组研究留下的空白:大约 8% 的人类基因组序列「黑洞」,这些区域因为序列复杂性,一直无法被破译,尽管 2003 年国际人类基因组计划(HGP)曾经号称已经「完成了」人类基因组图谱绘制的工作 全基因组版块先主要以人类重测序分析为主,后期陆续加入小鼠,动植物(挖坑,思路和使用软件类似)。 癌症基因组还包括大规模结构变异,例如大的插入、缺失、逆转、重复、易位和基因融合, 使得三代测序及分析能够提供有关癌症基因组复杂性最全面的观点。 本次以人类基因组重测序变异分析为引,先分享PacBio的分析流程,然后是ONT平台的分析流程,还会加入串联重复序列,染色体分型,拷贝数变异,融合基因以及基因组甲基化修饰的分析。 先放一张PacBio人类基因组变异分析的流程图,我们会根据流程图的顺序讲解每个软件的具体使用方法,最后串联成 pipeline 进行数据的批量分析,我们下节见! 图片

    81750编辑于 2023-10-19
  • 来自专栏碱基矿工

    人类基因组时代的泛基因组

    ----/ START /---- 今天想分享一个主题:人类基因组时代的泛基因组学。 这里我参照萨尔兹伯格的综述文章将内容分为以下 6 个部分,同时也融入部分我对泛基因组学的理解: 单一“参考基因组”分析模式的局限; “泛基因组学”概念的由来和定义 构建物种泛基因组的意义; 人类泛基因组的构建 我们熟知的 “人类基因组计划(HGP)” 测序得到的基因组序列其实只是人类这个物种少量个体的基因组序列,我们将它称之为“人类基因组参考序列”,它由若干个高加索人的基因组序列合并而成。 这个图基因组可以依据新序列的加入不断扩展变化,最终它将会成为一个符合全人群的泛基因组图谱。这和上面的线性基因组是不同的,图基因组是一个二维序列图谱。 泛基因组分析的应用和未来展望 关于泛基因组分析的应用,其实在上文就已经有所阐述了。概括来讲,泛基因组分析可以提升我们对物种基因组的认识,能够获得新见解。

    1.3K20发布于 2020-09-29
  • 来自专栏生信宝典

    Nature Plants | 基因组所张兴坦团队合作构建茶树泛基因组,助力基因组辅助育种

    为了解决这些问题,科学家们提出了利用泛基因组(Pan-genome)辅助育种技术,有望实现更快速地植物性状改良。泛基因组包含更加全面的遗传信息,可以有效降低参考基因组偏差对遗传变异检测的影响。 茶的多样性 为了更好地理解茶树的遗传特性和表型多样性,由中国农科院深圳农业基因组研究所(简称“基因组所”)张兴坦研究团队主导,联合国内多家单位成功构建茶树首个泛基因组图谱,研究成果于2023年11月28 茶树基因组包含大量的重复序列,其中长末端重复转座子(LTRs)占据了基因组序列的50%以上。 通过茶树基因组的结构变异分析,发现茶树基因组中的结构变异序列(SVs)大多源自于转座元件(TEs),TE的高度活跃性产生了基因组中大量SV。 茶树泛基因组图谱的构建更新了大众对茶树基因组的认识,包括蛋白编码基因数以及遗传变异对茶树表型的影响。

    60510编辑于 2023-11-29
  • 来自专栏小明的数据分析笔记本

    跟着PNAS学数据分析:泛基因组(pan-genome)分析核心基因组可变基因组大小

    ,获得一个图基因组,图基因组包含边和节点,节点是序列。 然后把每个基因组单独比对回图基因组,可以判断图基因组中节点是否被覆盖,如果所有基因组都覆盖这个节点,这个节点就是核心基因组的一部分,否则就是可变基因组 这里需要理解一下gfa格式的文件 论文提供了分析流程用到的代码 rearrangements with altered evolutionary dynamics https://www.nature.com/articles/s41467-020-14779-y 这个论文里就做了核心基因组和可变基因组的分析 /Sha.chr.all.v2.0.fasta -o 00.assembly/Sha.fa minigraph构建图基因组,参考基因组放第一个位置 time minigraph --inv no -xggs Eri.fa \ 00.assembly/Kyo.fa \ 00.assembly/Ler.fa \ 00.assembly/Sha.fa > at.gfa 8m50.144s minigraph再把每个基因组比对到图基因组

    6.1K31编辑于 2023-12-19
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (5)-- pbsv

    目前该技术广泛应用于基因组Denovo组装、全长转录本检测、宏基因组基因组重测序等多个方向,并且在染色体结构变异(Structure Variation, SV)的检测中有着不可替代的优势。 据统计,基因组结构变异可能导致的遗传性疾病已经超过1,000种,对于每个人来讲其基因组都有至少20,000个的结构变异,这些变异带来的影响或许比SNVs或InDels带来的影响更大。 三代测序的长读长能够很有效的跨越覆盖识别出结构变异位点,得到结构变异的全貌,轻松测通基因组上的复杂重复区域。 通过三代测序技术,在人类基因组中发现了数万个结构变异,而这些变异通常无法通过二代测序技术进行识别(图2)。 获得单个或者所有样本的结构变异和基因型,.svsig.gz到.vcf 具体分析命令 数据我们还是使用德系犹太人家系:HG002(子)、HG003(父)、HG004(母),具体参考全基因组 - 人类基因组变异分析

    2.1K00编辑于 2023-11-24
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析 (PacBio)(6)-- ANNOVAR

    如果将个体基因组与参考基因组相比,变异的数量是巨大的。 据估计(1),全球范围内人类的基因组中总共有超过8800万个变异(包括约8470万个单核苷酸多态性、360万个短插入/缺失变异和约6万个结构变异)。 但如果只考虑你和我两个人,我们基因组上的差别并没有这么多,因为在上述8800万个变异位点上我们的序列很大可能是相同的。 实际上,如果我们和人类参考基因组GRch38相比,那么我们的基因组差异大概在400-500万个(其中超过99.9%是单核苷酸多态性和短片段插入缺失变异),手动检查每个位点非常耗时且有些不切实际。 ANNOVAR能够利用最新的数据来分析各种基因组中的遗传变异。

    1.7K21编辑于 2023-12-07
  • 来自专栏三代测序-说

    基因组 | 三代长读长基因组组装 -- Canu

    今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Canu,既适用于小基因组又适用于大基因组的组装,最早是为了应对低碱基质量(high-noise (NHGRI)基因组信息学部门的Sergey Koren博士(图1)。 他在基因组组装和单分子测序算法领域具有深厚的研究背景,开发了 Canu和 HiCanu等基因组组装软件,广泛应用于从微生物到人类的各种基因组组装项目。 长读长的单分子测序技术彻底革新了从头基因组组装(de novo assembly)的方法,并使得构建参考级别质量(reference-quality)的基因组成为可能。 这里设置为 4.8m,表示预估的基因组大小为 4,800,000 个碱基对。

    75821编辑于 2025-05-29
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (4)-- DeepVariant

    , 是最常见也最简单的一类造成基因组多样性的DNA序列变异。 插入缺失(insertion-deletion,InDel),这里一般指小于50bp的变异,即在DNA序列中添加或删除少量碱基,主要指在基因组某个位置上发生较短长度的线性片段插入(Insert)或者缺失 SNP和INDEL变异检测有助于我们更深入地了解基因组,生物性状的表现,物种的起源与进化,认识基因变异和疾病的之间的联系。 数据准备样本参考基因组文件例如上一节pbmm2用到的GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz.参考基因组需要samtools进行索引#如果没有安装 对于大规模群体/队列而言(主要针对人类基因组开发),是个非常好的工具(5)。Deepvariant 和 Clara Parabricks 都推荐它来做联合变异(5)。

    2.3K21编辑于 2023-11-12
  • 来自专栏实验盒

    稀疏基因组学:大规模基因组分析的新范式

    稀疏基因组学提出的背景 在生物医学研究中,寻找相似的基因组序列是一项基础且关键的步骤。然而,现有的计算方法在处理呈指数级增长的基因组测序数据时显得力不从心。 基因组数据的规模庞大,从个体基因组中提取的短序列(reads)数量众多,且长度远小于完整基因组序列。 基于此,文章提出了稀疏基因组学的概念,其核心思路是通过排除基因组序列中的大量碱基,生成更短、更稀疏的序列,从而减少计算负载和内存占用。 包含搜索 在包含搜索任务中,Genome-on-Diet通过稀疏化基因组序列,使得大规模基因组和大型数据库的搜索速度提高了72.7-75.88倍(当索引预处理时为1.62-1.9倍),并且比非稀疏基因组序列搜索更节省存储空间 这使得Genome-on-Diet在处理宏基因组样本时具有更高的效率和准确性。 挑战 尽管稀疏化基因组学在加速基因组分析方面表现出色,但它也面临一些挑战。

    23000编辑于 2025-01-23
  • 来自专栏生信喵实验柴

    拼接病毒基因组

    背景 得到参考序列之后,由于病毒基因组较小,不容易从头拼接,因此可以采用与参考序列比对生成一致性序列的方法。无论是 PCR 扩增产物还是宏基因组测序都可以使用该方法得到新冠基因组。 一、病毒基因组拼接原理 由于不能直接使用原始测序数据进行拼接,目前病毒基因组主要采用基于参考序列指导(reference guide)的方法,所谓生成一致性序列(consensus)的方法。 比如参考序列为 A,比对到这个位点上有 1000 个碱基,其中900 个为 T,100 个为 A,那么我们就选择 T 作为待拼接基因组的碱基类型。 最终我们会得到一条与参考基因组长度一致,只是部分位点有所差异的基因组,作为最终得到的病毒基因组序列。例如下图中,参考序列的基因组为 GTCTG,一致性序列的结果为 GACTC。 所以你看到目前拼接出来的基因组都是 29903,虽然后面通过碱基 Polish 可以插入或者删除部分序列,但整体长度变化不大。

    1.3K20编辑于 2022-04-07
  • 来自专栏数据科学(冷冻工厂)

    Juicer: 辅助基因组组装

    图片导读本文主要对处理HiC数据的Juicer程序进行一个简短的介绍,并展示如何利用Juicer进行基因组组装中染色体挂载的第一步。1. 目录建立# 新建Juice目录mkdir juicer && cd juicer# 新建参考基因组相关文件目录mkdir references # 新建样本的序列文件和分析结果目录mkdir work 实战下面将详细介绍如何运行Juicer生成merged_nodups.txt文件,用于3D-DNA进行染色体挂载构建基因组索引# 基因组放在jucier/reference 目录下bwa index genome.fa 生成酶切图谱文件# 需要将 DpnII 换为 测序过程使用的酶# genome 替换为 基因组的名字python /home/juicer/misc/generate_site_positions.py 拆分后序列的R1和R2端分别通过bwa比对基因组,然后合并,筛选嵌合体序列,去重复,生成预处理后的结果文件。

    1.1K10编辑于 2023-01-19
领券