首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信菜鸟团

    对35种癌症的10,478名患者基因组进行候选驱动基因识别,英国10基因组项目

    为了探索全基因组测序(WGS)在扩大可能适用于精准治疗的癌症范围方面的价值,我们分析了来自英国10基因组项目的10,478名涵盖35种癌症类型的患者的全基因组测序数据。 Para_04 在这里,我们报告了对10,478名涵盖35种癌症类型的患者进行的全基因组测序(WGS)数据的分析(图1a)。 Results Para_01 我们分析了10,478个癌症基因组,涵盖35种不同类型的癌症(图1b和补充表1和2)。 为了探索全基因组测序在精准肿瘤学中的价值,我们分析了参与100kGP研究的10,470名患者的全基因组测序数据。 Methods The 100kGP cohort 10基因组队列 Para_01 分析的患者队列包括来自英格兰13个基因组医学中心的100kGP(v.11版本)招募的原发性癌症患者的肿瘤-正常样本对

    36810编辑于 2024-11-23
  • 来自专栏生物信息学、python、R、linux

    10X Genomics 建立自己的参考基因组

    10X Genomics为Cell Ranger提供了可以直接使用的人和小鼠基因组。此外,研究人员可以为其他物种创建自定义参考基因组,或向参考添加感兴趣的自定义标记基因,例如GFP。 以下教程概述了使用cellranger mkref构建自定义参考基因组步骤。 cellranger mkref --genome=mm10 \ --fasta=Mus_musculus.GRCm38.dna.primary_assembly.fa Mus_musculus.GRCm38.93.filtered.gtf \ --ref-version=3.0.0 查看运行cellranger mkref的结果是否正确 到这里自己的参考基因组就建好了

    3.9K20发布于 2020-06-23
  • 来自专栏数据科学(冷冻工厂)

    三维基因组基因组结构 (2)

    本系列将更新三维基因组相关内容,欢迎关注! 二维顺式元件 术语 cis 源自拉丁语词根“cis”,意思是“同一侧”。相比之下,“trans”一词来自拉丁语词根“trans”,意思是“对面”。 人们发现它聚集在拓扑关联域(TAD)的边界,并且可能在将基因组划分为“染色体邻域”(发生调控的基因组区域)方面发挥作用。 TAD 拓扑结构域 拓扑关联域 (TAD) 是一个自相互作用的基因组区域,这意味着 TAD 内的 DNA 序列之间的物理相互作用比 TAD 外的序列更频繁。 基因组到 TAD 的空间划分与许多线性基因组特征相关,例如组蛋白修饰、协调基因表达、与核纤层和 DNA 复制时间的关联、增强子-启动子相互作用。 染色质环 人们已经认识到,像启动子-增强子这样的顺式调控元件通常沿着脊椎动物的线性基因组远离。然而,为了引发调节作用,基因组结构进化形成一个环,将两个元素聚集到空间上接近的位置。

    45510编辑于 2024-03-02
  • 来自专栏小明的数据分析笔记本

    基因组文献007~Genome Biology 玉米泛基因组

    make 安装成功了,多了一个popins的可执行文件 这里运行pan04_popins_pipe.sh 是使用popins这个软件,这里会有报错会有报错,查了一下这个链接有讨论,这个链接的讨论是玉米泛基因组论文的作者 pmrc_filter.sh SRR1945464 SRR1945464.unaligned.MEMfiltered.fa.gz pp_SRR1945464/SRR1945464/non_ref_new.bam 10 SRR1945464 pp_SRR1945464/clean_nonrefseq_4_SRR1945464_locations.txt pp_SRR1945464/SRR1945464/non_ref_new.bam 10

    90310编辑于 2023-01-06
  • 来自专栏单细胞天地

    是否可以根据10X转录组数据来推断基因组CNV信息呢?

    那么10X数据跟其它单细胞转录组差异在哪呢? 虽然这篇文章没有比较10X,不过,只要是你的文章足够多,其实很容易想到,因为10X技术出来的单个细胞的reads数量太少,检测到的基因数量太少。 很容易从10X的数据分析报告看出来,10X单细胞转录组数据处理流程在我们单细胞天地有详细介绍: 单细胞实战(一)数据下载 单细胞实战(二) cell ranger使用前注意事项 单细胞实战(三) Cell 这跟10X来说,都是数量级的差异。 如果你想让你的 10X达到百万级别的测序量该如何 从40K到1M,需要25倍的扩大,如果从包lane的角度来说,有点太贵了,现在哪怕是Nova-seq,一条lane也得好几千块钱,虽然是10X费用是一个样本

    96940发布于 2020-03-30
  • 基因组测序简介

    基因组变量分析方面的合作。 本文是三篇关于使用K-Means,ADAM和Apache Spark的基因组变异分析系列文章的第一篇: 基因组测序简介 并行化基因组变量分析 基于基因组变量和K-均值算法的地理种群预测 介绍 在过去的几年里 我们将重点关注基因组变量分析——即基因组序列之间的差异,以及这项技术如何通过使用Databricks社区版的Apache Spark和ADAM(一个可扩展的基因组处理API和CLI)加速。 [5a2b5dr3mk.jpeg] 基因组测序简介 基因组测序就是使用化学方法和记录技术依次(按顺序)读取编码基因组的字符(A,G,C,T)。 Timothy Danford的演讲文件(关于基因组学与Spark) 孟德尔基因组学中心揭示了上百种罕见病的基因组学基础 NIH基因组测序工程,针对的目标是常见病和罕见病的基因 1000基因组计划 同样

    1.7K50发布于 2018-02-01
  • 来自专栏生信菜鸟团

    玩转参考基因组

    在研究基因序列层面变化的时候,对基因组序列有一个全面的认知及学会怎么对序列基本操作十分重要。 参考基因组简介 1.1 参考基因组基本格式 参考基因组是以 .fa 结尾的 FASTA 格式文件。 可以看到 1 号染色体序列的最后一行是两个 N字符,接着就是 10 号染色体。 因为是按照字符排序的,"1"、"10"、"11"、"2"这样的顺序,所以1 号染色体后就是10 号染色体。 liftOver CrossMap 参考基因组索引 3.1 参考基因组索引简介 参考基因组索引被称为基因组目录,为 FAI 格式文件,通常由 samtools faidx 命令生成。 11 chr2 23 34 10 11 chr1 的偏移量(6): > 和 chr1 占用 5 个字节。 chr2 的偏移量(34): chr1 的序列数据占用 20 个字节(两行,每行 10 个字符)。 两个换行符(每行末尾一个)占用 2 个字节。 >chr2 占用 5 个字节。

    1.1K11编辑于 2025-04-15
  • 来自专栏生信喵实验柴

    基因组拼接探索

    背景 在之前介绍的基因组拼接,主要是二代illumina测序的拼接,其中使用不同的软件,及每个软件对应的不同的参数,会得到不同的结果,那么怎么选取软件和参数呢,下面着重介绍这些,当然取决于你的实验数据 scafSeq | seqkit stat seqkit seq -m 500 ../1.kmer/kmer63_1.scafSeq | seqkit stat 四、数据量大小 分别抽取 10%

    50120编辑于 2022-05-23
  • 来自专栏生信喵实验柴

    了解基因组拼接

    背景 为什么要拼接基因组? 序列拼接也叫做基因组组装,是生物数据分析中最核心的工作。想要从基因组学角度来对一个生物进行研究,那么获得物种的全基因组序列,也就获得了其全部的遗传信息。 下面表格中给除了在测序 reads 一定情况下,随着测序深度的增加,基因组覆盖度逐渐增加的案例。当达到 10x 数据,覆盖全基因组。 1、病毒:基因组较小,突变率高,高度杂合,测序覆盖度高,测序数据中包含宿主基因组,拼接难度大; 2、细菌基因组基因组较小,单倍体,基因组大小一般都小于 10M,重复率低,可以进行纯培养,最容易拼接 ; 3、真菌:基因组10-100M 之间,有单倍体,也有多倍体,一般有多条染色体,拼接难度大于细菌; 4、植物:基因组大小变化较大,一般有多条染色体,多倍体,重复序列多,基因组拼接难度较大 8、小基因组:线粒体,叶绿体、质粒等,需要与“宿主”分开,很难分; 9、转录组数据:转录本数据非全基因组,只需拼接出完整转录本即可,不追求“长度”; 10、宏转录组:宏基因组与转录组组合

    1.5K21编辑于 2022-04-07
  • 来自专栏生信喵实验柴

    基因组简介

    2009 年:pacbio 测序仪发布,测序读长增长到 10K 以上。 2010 年:EMP 地球微生物组计划。 里程碑 7:成人菌群的稳定性和个体性 2003 里程碑 8:细菌之外:研究宿主相关的其它微生物 2004 里程碑 9:菌群对粘膜免疫的调控 2005 里程碑 10 4、欧盟 MetaHIT 计划(人体肠道宏基因组计划) http://www.metahit.eu/ (网站2022年10月16日打不开,报错) MetaHIT 计划是由欧盟第七框架计划 10、My New Gut Project 欧洲食品信息委员会在 2013 年发起的 MyNewGut 计划同样由欧盟 FP7 资助。 10 结果可重复性: 由于以上宏基因组分析中诸多的影响条件,从样品采集,保存,提取,建库,测序,不同的数据量,选用不同软件,算法,数据库等,都会产生干扰,因此,同样的样品,结果不容易重复。

    4.8K20编辑于 2023-02-24
  • 来自专栏生信喵实验柴

    基因组拼接原理

    背景 前面我们了解了基因组拼接,今天给大家带来的是拼接原理。了解实验原理,就是为了我们更好地做实验。 一、拼接原理 序列拼接也叫做基因组组装。 我们常说基因组是一部天书,比如人全基因组有 30 亿个碱基对,那么要是打印出来,真的是一部天书。 二、了解kmer 如何估计基因组大小 获取一个物种的基因组大小是一件非常重要的工作。在测序之前知道了基因组的大小,我们就可以根据这个值来决定测序的数据量。 例如人的基因组是 3G,我们测 10 倍的数据量就刚好是 30G。而且也可以根据基因组大小,估计 denovo 基因组软件对机器内存的要求。如果基因组太大。 例如 10G,序列拼接就会超出了机器内存的限制,就得想办法提高硬件。也需要在序列拼接之后将序列拼接值与真实值之间做比较,来评估序列拼接的效果。所以,获取基因组大小是非常重要的。

    2.5K20编辑于 2022-04-07
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (1)

    ,填补了此前几十年人类基因组研究留下的空白:大约 8% 的人类基因组序列「黑洞」,这些区域因为序列复杂性,一直无法被破译,尽管 2003 年国际人类基因组计划(HGP)曾经号称已经「完成了」人类基因组图谱绘制的工作 全基因组版块先主要以人类重测序分析为主,后期陆续加入小鼠,动植物(挖坑,思路和使用软件类似)。 癌症基因组还包括大规模结构变异,例如大的插入、缺失、逆转、重复、易位和基因融合, 使得三代测序及分析能够提供有关癌症基因组复杂性最全面的观点。 本次以人类基因组重测序变异分析为引,先分享PacBio的分析流程,然后是ONT平台的分析流程,还会加入串联重复序列,染色体分型,拷贝数变异,融合基因以及基因组甲基化修饰的分析。 先放一张PacBio人类基因组变异分析的流程图,我们会根据流程图的顺序讲解每个软件的具体使用方法,最后串联成 pipeline 进行数据的批量分析,我们下节见! 图片

    82150编辑于 2023-10-19
  • 来自专栏实验盒

    GenomeOcean:基于宏基因组的大规模基因组基础模型

    GenomeOcean,通过整合宏基因组数据和先进的计算架构,显著提升了效率和功能表征能力,为基因组研究开辟了新路径。 背景与挑战 当前的基因组研究大多依赖参考基因组,但这些数据偏向于高丰度、可培养的微生物,导致对稀有微生物及其基因组特性的解析能力有限。 为应对这些挑战,GenomeOcean 借助大规模宏基因组数据和创新算法设计,显著提升了对基因组数据的处理效率和功能解析能力。 GenomeOcean 的核心创新 1. 未来展望 GenomeOcean 的出现为宏基因组研究、天然产物发现和合成生物学设定了新的基准。这一模型不仅有效提升了基因组数据的处理效率,还为复杂基因组功能的解析提供了全新工具。 总结 GenomeOcean 通过宏基因组数据驱动和高效架构设计,实现了基因组基础模型的跨越式发展。

    56510编辑于 2025-02-08
  • 来自专栏小明的数据分析笔记本

    跟着PNAS学数据分析:泛基因组(pan-genome)分析核心基因组可变基因组大小

    ,获得一个图基因组,图基因组包含边和节点,节点是序列。 然后把每个基因组单独比对回图基因组,可以判断图基因组中节点是否被覆盖,如果所有基因组都覆盖这个节点,这个节点就是核心基因组的一部分,否则就是可变基因组 这里需要理解一下gfa格式的文件 论文提供了分析流程用到的代码 rearrangements with altered evolutionary dynamics https://www.nature.com/articles/s41467-020-14779-y 这个论文里就做了核心基因组和可变基因组的分析 /Sha.chr.all.v2.0.fasta -o 00.assembly/Sha.fa minigraph构建图基因组,参考基因组放第一个位置 time minigraph --inv no -xggs Eri.fa \ 00.assembly/Kyo.fa \ 00.assembly/Ler.fa \ 00.assembly/Sha.fa > at.gfa 8m50.144s minigraph再把每个基因组比对到图基因组

    6.2K31编辑于 2023-12-19
  • 来自专栏碱基矿工

    人类基因组时代的泛基因组

    ----/ START /---- 今天想分享一个主题:人类基因组时代的泛基因组学。 这里我参照萨尔兹伯格的综述文章将内容分为以下 6 个部分,同时也融入部分我对泛基因组学的理解: 单一“参考基因组”分析模式的局限; “泛基因组学”概念的由来和定义 构建物种泛基因组的意义; 人类泛基因组的构建 我们熟知的 “人类基因组计划(HGP)” 测序得到的基因组序列其实只是人类这个物种少量个体的基因组序列,我们将它称之为“人类基因组参考序列”,它由若干个高加索人的基因组序列合并而成。 这个图基因组可以依据新序列的加入不断扩展变化,最终它将会成为一个符合全人群的泛基因组图谱。这和上面的线性基因组是不同的,图基因组是一个二维序列图谱。 泛基因组分析的应用和未来展望 关于泛基因组分析的应用,其实在上文就已经有所阐述了。概括来讲,泛基因组分析可以提升我们对物种基因组的认识,能够获得新见解。

    1.3K20发布于 2020-09-29
  • 来自专栏腾讯技术工程官方号的专栏

    人类全基因组分析提速10倍的背后:TCS 服务垂直行业的探索

    近日腾讯云国内首发二代基因测序FPGA加速方案,将人类全基因组数据分析从业内平均水平的30小时降低到了不到3小时,在业内引起不小反响,也吹响了腾讯云进军基因计算行业的号角[1]。 数据量大表现在一个人的全基因组测序数据就高达几百G,同时对这些数据需要进行大量的计算才能找出我们想要的信息。 以人的全基因组测序数据分析为例,二代测序当前普遍需要的计算力达到~500核时,而三代测序需要的计算力更是高达数万核时。 让业内标准的30x的NA12878样本,分析时间从通常的30小时缩减到了10小时。 image.png 因此我们优化了这一步的调度,让每个节点分配到的计算量尽可能平均,并且弹性申请更多资源,将耗时从10小时减到了3.6小时。

    1.5K90发布于 2018-01-02
  • 来自专栏生信宝典

    Nature Plants | 基因组所张兴坦团队合作构建茶树泛基因组,助力基因组辅助育种

    为了解决这些问题,科学家们提出了利用泛基因组(Pan-genome)辅助育种技术,有望实现更快速地植物性状改良。泛基因组包含更加全面的遗传信息,可以有效降低参考基因组偏差对遗传变异检测的影响。 茶的多样性 为了更好地理解茶树的遗传特性和表型多样性,由中国农科院深圳农业基因组研究所(简称“基因组所”)张兴坦研究团队主导,联合国内多家单位成功构建茶树首个泛基因组图谱,研究成果于2023年11月28 茶树基因组包含大量的重复序列,其中长末端重复转座子(LTRs)占据了基因组序列的50%以上。 通过茶树基因组的结构变异分析,发现茶树基因组中的结构变异序列(SVs)大多源自于转座元件(TEs),TE的高度活跃性产生了基因组中大量SV。 茶树泛基因组图谱的构建更新了大众对茶树基因组的认识,包括蛋白编码基因数以及遗传变异对茶树表型的影响。

    61210编辑于 2023-11-29
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析 (PacBio)(6)-- ANNOVAR

    如果将个体基因组与参考基因组相比,变异的数量是巨大的。 据估计(1),全球范围内人类的基因组中总共有超过8800万个变异(包括约8470万个单核苷酸多态性、360万个短插入/缺失变异和约6万个结构变异)。 但如果只考虑你和我两个人,我们基因组上的差别并没有这么多,因为在上述8800万个变异位点上我们的序列很大可能是相同的。 实际上,如果我们和人类参考基因组GRch38相比,那么我们的基因组差异大概在400-500万个(其中超过99.9%是单核苷酸多态性和短片段插入缺失变异),手动检查每个位点非常耗时且有些不切实际。 ANNOVAR能够利用最新的数据来分析各种基因组中的遗传变异。

    1.7K21编辑于 2023-12-07
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (5)-- pbsv

    目前该技术广泛应用于基因组Denovo组装、全长转录本检测、宏基因组基因组重测序等多个方向,并且在染色体结构变异(Structure Variation, SV)的检测中有着不可替代的优势。 据统计,基因组结构变异可能导致的遗传性疾病已经超过1,000种,对于每个人来讲其基因组都有至少20,000个的结构变异,这些变异带来的影响或许比SNVs或InDels带来的影响更大。 4.PAV,Phased Assembly Variant Caller,文章于2021年发表于Science (11),github更新到2023年10月13号(version 2.3.4)。 --hifi,--ccs Use options optimized for HiFi reads: -S 0 -P 10. cluster-min-basepair-perc-id INT Do not cluster signatures with basepair identity < P%. [10

    2.1K00编辑于 2023-11-24
  • 来自专栏三代测序-说

    基因组 | 三代长读长基因组组装 -- Canu

    今天我们介绍一款用于三代长度长测序数据(如PacBio和纳米孔测序)的基因组de novo拼接工具 -- Canu,既适用于小基因组又适用于大基因组的组装,最早是为了应对低碱基质量(high-noise (NHGRI)基因组信息学部门的Sergey Koren博士(图1)。 他在基因组组装和单分子测序算法领域具有深厚的研究背景,开发了 Canu和 HiCanu等基因组组装软件,广泛应用于从微生物到人类的各种基因组组装项目。 长读长的单分子测序技术彻底革新了从头基因组组装(de novo assembly)的方法,并使得构建参考级别质量(reference-quality)的基因组成为可能。 这里设置为 4.8m,表示预估的基因组大小为 4,800,000 个碱基对。

    78321编辑于 2025-05-29
领券