首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) -- minimap2 + Sniffles2

    软件安装首先从github官网上下载minimap2的二进制文件压缩包,minimap2-2.26_x64-linux.tar.bz2,然后上传到服务器上。 # minimap2,v2.26压缩包解压缩$ tar -xjvf minimap2-2.26_x64-linux.tar.bz2# -x 解压# -j 有bz2属性的# -v 显示所有过程# -f 使用档案名字 pbtkExample Datasets德系犹太人家系:HG002(子)、HG003(父)、HG004(母),属于个人基因组计划中的样本。 文件,.snf后期用于多样本鉴定结构变异$ sniffles --input sample1.bam --vcf sample1.vcf.gz --snf sample1.snf指定串联重复区域以及参考基因组序列 参考文献:生信分析|Minimap2+sniffles calling SVs

    2.7K10编辑于 2023-11-26
  • 来自专栏数据科学(冷冻工厂)

    三维基因组:Loop结构 差异分析(2)

    通过聚合峰分析进行可视化 既然已经找出了“WT”和“FS”条件之间的差异loop结构,就可以利用聚合峰分析(APA)来直观地展示loop结构调用的质量。 进行可视化 若想通过 ggplot2 来呈现结果,得先将矩阵转换成长格式。 aspect.ratio=1, axis.text.x = element_text(angle = 45, hjust=1)) 使用 plotgardener 进行可视化 plotgardener 是一个基因组学绘图工具 ,相比 ggplot2,它提供了更大的灵活性。 () 正如你所看到的,尽管在某些方面 plotgardener 的操作可能较为复杂,但它也带来了更大的灵活性,可以精确控制基因组数据可视化的具体位置和方式。

    46410编辑于 2025-05-18
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (2)-- CCS的使用

    一、基因组 PacBio SMRTbell文库的构建流程 1. 图片 图片 2. 基因组SMRTbell文库构建流程 以基因组HiFi文库为例(10-20Kb文库 ) ,图1左所示: 1)通过核酸提取得到基因组DNA(gDNA)后,先利用G-tube管或Megaruptor System 将基因组片段化至合适大小 (一般动植物基因组20 Kb建库,微生物基因组10 Kb建库); 2)通过去除单链悬突、损伤修复和末端修复等步骤,得到完整的双链DNA插入片段; 3)通过将SMRTbell接头连接至双链 CLR模式适用超长片段文库(> 25 kb),对下机的subreads数据不再进行后续处理,可以直接使用,用作下游分析的原始数据,唯一的缺点就是每条reads准确度低一些。

    4.8K31编辑于 2023-10-26
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (3)-- pbmm2

    1.参考基因组的获取 分析前,除测序数据外,我们还需准备对应物种的参考基因组fasta文件。对此可以根据自己研究的需要,在NCBI、Ensembl、UCSC等常见数据库中进行下载。 2. pbmm2安装 #使用conda安装pbmm2 $ conda install -c bioconda pbmm2 #安装版本 v1.13.0 3. pbmm2使用 建立人类参考基因组索引 Index 公共数据演示: (1) 从gencode数据库下载人类参考基因组, 进行pbmm2索引。 PacBio推荐人类参考基因组(详细参照李恒博客),所以采用推荐基因组进行后续分析。 重测序数据分析(短序列的比对算法SNP/indel 和CNV/SV calling 方法) 2.  神灯宝典之PB三代重测序分析实录(一) 你可能不知道的基因组注释文件冷知识 超精华生信ID总结,想踏入生信大门的你-值得拥有

    2.2K50编辑于 2023-11-23
  • 来自专栏数据科学(冷冻工厂)

    单细胞分析 | 基因组区域的可视化 (2)

    细胞级别的片段分布 CoveragePlot() 函数通常用于计算基因组区域内不同细胞群体的信号总和,但有时候,也需要单独查看单个细胞在基因组区域内的序列化片段频率,而不是将它们聚合起来。 接着,基因组区域会被划分成多个小区域,对每个细胞在这些小区域中的片段总数进行计数,并将这些计数结果以热图的形式展示出来。 在基因组轨迹图上添加额外的数据 多模态单细胞数据集能够为每个细胞提供多种实验测量结果。 之前已经介绍了如何创建单独的轨迹和图表,现在可以将它们合并成一个基因组区域的总图。 tile_plot, peak_plot, gene_plot, link_plot), expression.plot = expr_plot, heights = c(10, 6, 1, 2,

    35310编辑于 2024-12-30
  • 来自专栏数据科学(冷冻工厂)

    三维基因组基因组结构 (2)

    人们发现它聚集在拓扑关联域(TAD)的边界,并且可能在将基因组划分为“染色体邻域”(发生调控的基因组区域)方面发挥作用。 A/B Compartments Hi-C 数据经过归一化并转换为观察/预期矩阵后,显示格子图案,通过主成分分析 (PCA) 进行分析,第一个主成分(可以解释为数据最大方差的替代项,最突出的特征)包含区室 TAD 拓扑结构域 拓扑关联域 (TAD) 是一个自相互作用的基因组区域,这意味着 TAD 内的 DNA 序列之间的物理相互作用比 TAD 外的序列更频繁。 基因组到 TAD 的空间划分与许多线性基因组特征相关,例如组蛋白修饰、协调基因表达、与核纤层和 DNA 复制时间的关联、增强子-启动子相互作用。 染色质环 人们已经认识到,像启动子-增强子这样的顺式调控元件通常沿着脊椎动物的线性基因组远离。然而,为了引发调节作用,基因组结构进化形成一个环,将两个元素聚集到空间上接近的位置。

    45510编辑于 2024-03-02
  • 来自专栏小明的数据分析笔记本

    跟着PNAS学数据分析:泛基因组(pan-genome)分析核心基因组可变基因组大小

    ,获得一个图基因组,图基因组包含边和节点,节点是序列。 然后把每个基因组单独比对回图基因组,可以判断图基因组中节点是否被覆盖,如果所有基因组都覆盖这个节点,这个节点就是核心基因组的一部分,否则就是可变基因组 这里需要理解一下gfa格式的文件 论文提供了分析流程用到的代码 rearrangements with altered evolutionary dynamics https://www.nature.com/articles/s41467-020-14779-y 这个论文里就做了核心基因组和可变基因组分析 = FALSE) datmat$combres <- rowSums(datmat %>% select(-nodeid)) datmat totassemb <- ncol(datmat) - 2 "))+ scale_fill_manual(values = c("#e3010a","#00b2ec")) p2<-datpan %>% select(nosamp,core_gen,tot_gen

    6.2K31编辑于 2023-12-19
  • 来自专栏育种数据分析之放飞自我

    基因组选择分析软件调研

    目前, 基因组选择进入了一个高速发展的阶段, 各种新的算法和模型被提出。为了解相关软件应用的整体情况,也为选择合适的软件进行全基因组选择分析提供决策,这里对基因组选择的软件进行一个汇总。 考虑到基于BLUP的分析软件,在速度、准确性和无偏性测试中比较稳健,且贝叶斯方法存在速度限制的问题,所以本次软件调研主要偏向于基于BLUP的软件。 以下是分析软件的调研结果,主要包括以下4个方面内容: 1, 主要软件汇总 2, 基因组软件介绍: 单机版 3, 基因组软件介绍: R语言版 4, 结论及建议 调研结果主要来源于三个方面:文件检索, 2. 基因组软件介绍:单机版 ? 作为商业软件,其优点主要体现在: 1,操作简单 2,运算速度快 3,可以支持复杂模型 4,有技术支持 2.3 PIBLUP软件 免费软件,商业使用需要授权 网址:https://github.com

    2.2K40发布于 2019-06-13
  • 来自专栏生信喵实验柴

    基因组分析环境搭建

    multiqc conda install -y fastp conda install -y seqkit conda install -y bwa conda install -y bwa-mem2 conda install -y kraken2 conda install -y minimap2 二、宏基因组数据库 2.1 NCBI 物种分类 taxonomy 数据库 NCBI 的分类数据库 ,是基于大量基因组的系统发育分析来构建基因组分类学研究的标准流程,从而对微生物进行分类 。 提供了一个免费使用的平台,用于组装,分析和归档源自特定环境中存在的微生物种群的测序的微生物组数据。 ./ #方法2 国家微生物科学中心 lftp ftp://download.nmdc.cn/ ls mirror taxonomy #nt库与nr库也可以通过aspera下载 ~/.aspera/connect

    1.7K20编辑于 2023-02-24
  • 来自专栏芒果先生聊生信

    生信分析网站(基因组分析

    数据库做基因组学的分析(机制一); STRING互作和GO/KEGG分析探讨可能的信号通路(机制二); TISIDB/TIMER分析肿瘤免疫特征(机制三)。 根据我们的整理,差异分析是基础,生存分析和相关性分析是表型,免疫浸润分析是对表型的阐释,兼有表型和机制两种作用,但并不是真正意义上的机制探究。 基因组分析是从DNA水平对肿瘤或者表型的出现进行阐释,包括基因突变、删除、扩增和表观遗传(DNA甲基化)等。 目前有很多数据库可以对特定基因的基因组学和表观遗传进行纯网页分析,是互联网带给果友们的福利。 ? 基因组分析数据库 cBioPortal(组学分析的神器,推荐) https://www.cbioportal.org/ UALCAN(甲基化是特色,推荐) http://ualcan.path.uab.edu

    3.6K11发布于 2020-08-12
  • 来自专栏生信技能树

    基于全基因组的基因家族分析2):SlNRAMP家族基因成员鉴定

    The plant belongs to the nightshade family, Solanaceae. 2.获取基因家族pfam number 进入官网https://pfam.xfam.org Nramp.hmm 是上一步下载到的文件 protein.fa是番茄全基因组蛋白序列文件 out是重定向的输出的文件 找到的成员信息,可以看出来,初步找到了共10个NRAMP成员。 但是不管怎么样,还是先把所有成员的蛋白序列download下来,进行保守结构域分析。 ? Nramp.hmm文件 ? print "\n" : chomp' in.fasta | tail -n +2 > out.fasta # 最后在samrt网站确认是否是该家族成员,进行最后的鉴定。

    1.5K20发布于 2019-05-14
  • 来自专栏生信宝典

    高通量数据分析必备|基因组浏览器使用介绍 - 2

    基因组浏览器的基本使用、各部分功能和不同Track展示,在高通量数据分析必备|基因组浏览器使用介绍 - 1已有介绍。这次进一步介绍其可用的公共数据信息、区域截图和共享等。 EPGG支持的物种有人、小鼠、大鼠、猴子、猪、狗、猩猩、鸡、斑马鱼、果蝇、线虫、拟南芥、玉米、大豆、白菜、酵母等,也可以把自己的基因组整理成所需要的格式,导入EPGG使用。 ? EPGG还提供了很多实用的分析功能,如下图: ? 浏览器访问链接:http://epigenomegateway.wustl.edu/browser/ 下一期再详细介绍每个功能使用。

    63830发布于 2018-08-01
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (1)

    破解人类基因密码的三代测序技术: 2022 年 4 月 1 日,赶在愚人节当天,《科学》杂志(Science)刊登系列文章,发表了国际 T2T 联盟攻克的首个人类基因组完成图(CHM13-T2T)研究成果 全基因组版块先主要以人类重测序分析为主,后期陆续加入小鼠,动植物(挖坑,思路和使用软件类似)。 癌症基因组还包括大规模结构变异,例如大的插入、缺失、逆转、重复、易位和基因融合, 使得三代测序及分析能够提供有关癌症基因组复杂性最全面的观点。 本次以人类基因组重测序变异分析为引,先分享PacBio的分析流程,然后是ONT平台的分析流程,还会加入串联重复序列,染色体分型,拷贝数变异,融合基因以及基因组甲基化修饰的分析。 先放一张PacBio人类基因组变异分析的流程图,我们会根据流程图的顺序讲解每个软件的具体使用方法,最后串联成 pipeline 进行数据的批量分析,我们下节见! 图片

    82250编辑于 2023-10-19
  • 来自专栏生信菜鸟团

    肿瘤基因组测序数据高级分析--肿瘤基因组测序数据分析专栏

    简介 大多数肿瘤基因组综述类文章,对于数据分析部分只是介绍了基础分析部分,也就是从原始的 fastq 文件通过质控、比对、GATK流程、Call 变异最后得到 vcf 文件和拷贝数变异的结果就结束了。 主要可以分为以下几点: 显著突变基因 驱动突变基因 突变特征分析 肿瘤微卫星稳定性分析 肿瘤突变负荷TMB 肿瘤新抗原预测 局部显著性拷贝数变异 肿瘤纯度和倍性评估 肿瘤克隆进化分析 这些分析中也用到了很多工具 肿瘤微卫星稳定性分析 微卫星(Microsatellite),基因组中的一类短串联重复DNA序列,一般由1-6个核苷酸组成,呈串联重复排列。由于其核心重复单元重复次数差异,微卫星具有群体多态性。 这列分析常用的软件有 MSIsensor2、MANTIS 等 肿瘤突变负荷TMB 肿瘤突变负荷(Tumor Mutation Burden,TMB)的定义是每百万碱基中被检测出的,体细胞基因编码错误 肿瘤基因组数据得到的突变结果,可以进行肿瘤新抗原预测,主要用到的工具有:pTuneos、Neoantigen-dev、 NetMHCPan、OptiType、pVAC-Seq、ASNEO等 局部显著性拷贝数变异

    4.8K43发布于 2021-10-12
  • 来自专栏生信修炼手册

    soapdenovo2进行基因组组装

    基因组的的大小,杂合程度等因素都影响基因组组装的难易程度,目前市场上主流的有以下两种产品 细菌/真菌基因组组装 动植物基因组组装 细菌/真菌基因组相对较小,组装难度较低;动植物基因组很大,而且杂合度很高 ,特别是多倍体植物,这对于测序和分析都是很大的挑战。 对于分析而言,pacbio公司整合了许多的组装软件,专门针对三代测序数据进行组装;对于二代测序平台的数据,有很多开源软件可供选择,主流的包括以下几种 soapdenovo allpaths-lg Velvet 全局配置目前只有一个参数max_rd_len, 如果序列大于该长度,会被切成该长度,然后在分析。 R1端和R2端的reads。

    2.4K10发布于 2020-05-08
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析(PacBio) (5)-- pbsv

    目前该技术广泛应用于基因组Denovo组装、全长转录本检测、宏基因组基因组重测序等多个方向,并且在染色体结构变异(Structure Variation, SV)的检测中有着不可替代的优势。 本期我们就继续沿着分析流程图一起看看基于比对结果检测染色体结构变异(SV)分析方法。 通过三代测序技术,在人类基因组中发现了数万个结构变异,而这些变异通常无法通过二代测序技术进行识别(图2)。 获得单个或者所有样本的结构变异和基因型,.svsig.gz到.vcf 具体分析命令 数据我们还是使用德系犹太人家系:HG002(子)、HG003(父)、HG004(母),具体参考全基因组 - 人类基因组变异分析 参考文献 神灯宝典之PB三代重测序分析实录(一) 神灯宝典之三代重测序分析实录(二) 三代测序时代的临床科研 三代重测序到底能干什么?

    2.1K00编辑于 2023-11-24
  • 来自专栏三代测序-说

    基因组 - 人类基因组变异分析 (PacBio)(6)-- ANNOVAR

    如果将个体基因组与参考基因组相比,变异的数量是巨大的。 实际上,如果我们和人类参考基因组GRch38相比,那么我们的基因组差异大概在400-500万个(其中超过99.9%是单核苷酸多态性和短片段插入缺失变异),手动检查每个位点非常耗时且有些不切实际。 ANNOVAR能够利用最新的数据来分析各种基因组中的遗传变异。 将ANNOVAR的压缩包annovar.latest.tar.gz上传至服务器,解压并将路径添加到环境中 (图2)。 第2列:基因名,Symbol。 第3列:染色体位置。 第4,5列:突变位置。 第6,7列:参考碱基,突变碱基。

    1.7K21编辑于 2023-12-07
  • 来自专栏科技记者

    基因组学习笔记2

    基因组研究的目的是通过对菌种(株)的鉴定,获得真实的多样性数据,功能,协作和进化。宏基因组分析的三个任务是物种分析(它们是谁),功能分析(能干什么,潜力),比较分析(怎么比较它们)。 ? 2.优缺点 优点: 1.不仅是群落组成信息,还可以有不同环境中微生物的功能信息,是解释疾病等假说的有力工具。可以分析物种内的基因异质性。 2.可能是无偏好性的,更有可能检测罕见或新的物种和物种组成的细微变化。 3.可以通过基因把物种确定到菌株的水平。 3.数据分析 有两种方法,一种是基于reads比对的,另一种是基于序列组装的。 前者适合进行物种组成、宏基因组功能和代谢途径分析;后者可以进行物种分类和基因功能预测。 取样 首先是序列打断成合适的长度,加接头。然后,片段大小选择和去除无接头的序列。 几个技术性的问题是,1)没有参考基因组比较组装结果;2)组装取决于有没有相近的基因组;3)另外,组装也受测序深度的影响。因此,组装软件的开发还处于初级阶段。

    1.4K21发布于 2020-08-18
  • 来自专栏生信菜鸟团

    罕见癌症类型的基因组分析

    测序策略: 使用FDA授权的匹配肿瘤/正常组织测序检测 MSK-IMPACT 对患者进行体细胞和生殖系分析。对12个PACC样本进行了WGS。 PACC 的体细胞突变:有无 HR/DDR 种系变异的患者的 PACC 之间的体细胞遗传变异库存在差异(图2A),但是 TMB 和 基因组变异分数 FGA 没有差异(图2BC) PACC 的WGS结果: 新抗原分析: 使用 WGS 和 RNA 测序数据评估了 PACC 的免疫组库(图 4A)。 具有 HRD 基因组特征(BRCA2和PALB2 突变)的 PACC 中的新抗原总数(强结合和弱结合)显着高于缺乏 HRD 特征的 PACC(图4B)。 结论 研究表明,PACC具有独特的基因组特征,与BRCA2和PALB2生殖系变异有关。 HRD是PACC发展的关键生物学过程,为开发新的治疗策略提供了依据。

    29310编辑于 2024-05-30
  • 数据分析:宏基因组数据的荟萃分析

    数据分析:宏基因组数据的荟萃分析​介绍宏基因组数据的荟萃分析是一种综合多个独立宏基因组研究结果的方法,目的是揭示不同人群或样本中微生物群落的共同特征和差异。 ANCOMBC详细分析见:GMSB文章五:微生物组差异分析ANCOMBC2。 数据分析:宏基因组数据的荟萃分析​可视化结果采用森林图展示结果,该结果包含效应值RE的95%置信区间和对应的P值。 :宏基因组数据的荟萃分析​数据分析:宏基因组数据的荟萃分析结果:荟萃分析筛选到21种差异微生物。 总结数据分析:宏基因组数据的荟萃分析

    78310编辑于 2024-08-15
领券