这里以TCGA计划为标准:https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/CNV_Pipeline/ Numeric focal-level Copy Number Variation (CNV) values were generated with "Masked Copy Number Segment" files from tumor with focal CNV values larger than 0.3 are categorized as a "gain" (+1) Genes with focal CNV values between 在COSMIC数据库也有说明:https://cancer.sanger.ac.uk/cosmic/help/cnv/overview 思考题 一个样本的CNV好计算,也容易理解。 但不同病人,或者同一个病人的不同肿瘤部位的CNV状态,就是多个样本如何计算相关性呢? 欢迎留言讨论
')####cnv clustercnv.tl.pca(adata)cnv.pp.neighbors(adata)cnv.tl.leiden(adata)cnv.pl.chromosome_heatmap ',bbox_inches = 'tight')####UMAP plot of CNV profilescnv.tl.umap(adata)cnv.tl.cnv_score(adata)fig, (( cnv_leiden",legend_loc="on data",legend_fontoutline=2,ax=ax1,show=False,)cnv.pl.umap(adata, color="cnv_score '.cnv.celltype.umap.CNV.png',bbox_inches = 'tight')####visualize the CNV score and clusters on the transcriptomics-based + '.cnv.status.png',bbox_inches = 'tight')cnv.pl.chromosome_heatmap(adata[adata.obs["cnv_status"] ==
CMA作为儿科遗传病评估及产前诊断的一线检测技术,相比于CNV-seq来说更为成熟且应用更为普遍,然而在检测分辨率和嵌合比例上CNV-seq比CMA更具优势,可以检测到CMA漏诊的CNV。 公司近来接收到一份CMA检测为阴性样本,但经过CNV-seq检测发现该受检者具有大片段重复的致病CNV 受检者临床资料描述 ? 血遗传代谢筛查结果 ? ? CNV-seq检测结果 ? ? 综上所述,该重复为致病CNV。 相关研究 在19年8月,香港中文大学及暨南大学医学院附属宝安妇幼保健院的研究人员对1023例产前病例同时进行了CMA以及CNV-seq检查,CMA的诊断率为11.8%(121例阳性结果),CNV-seq
全外显子组在检测SNP方面已经比较成熟,考虑到外显子上的变异可能更具有致病性,科研人员也希望通过检测外显子上的CNV来实现一个高效,经济的CNV检测,很多的软件被开发用于WES的CNV分析。 所以WES的CNV检测经典的用处就是检测体细胞CNV,即SCNA变异,提供配对的癌和癌旁样本来进行分析。 CNV长度和分布 不同软件检测到的CNV长度分布不同,结果统计如下 ? CNV的长度可以从几十bp跨越到几Mb的范围,通常认为小于300bp和长度在6kb左右的CNV应该是数量最多的。 WES的CNV检测工具都是基于read-depth算法,采用滑动窗口的方法,窗口越大,最终鉴定出来的CNV可信度越高,所以在检测小片段的CNV方面,能力较差。 Mendelian Error Rate评估 通常情况下denovo CNV的概率是非常低的,将denovo CNV作为Mendelian Error Rate的指标,对个体及其双亲同时进行CNV分析,
genome Online https://genomebiology.biomedcentral.com/articles/10.1186/s13059-024-03294-8 研究背景 体细胞拷贝数变异(CNV 随着NGS技术的发展,众多CNV检测工具应运而生。本研究旨在利用先前研究建立的数据集,对6种常用的CNV检测软件工具在检测准确性、敏感性和可重复性方面进行基准测试。 工具:对6种常见的 CNV 分析工具(ascatNgs、CNVkit、FACETS、DRAGEN、HATCHet和Control-FREEC)进行了评估。参数会进行一定的个性化调整。 一致性评估:通过Jaccard指数(基因组区域交集与并集的比值)量化CNV检测结果的一致性。 通过在各种实验条件下进行性能评估,本研究提高了癌症研究领域对测序平台选择、样本制备、测序深度和CNV检测工具选择的认识,为优化CNV检测流程和提高研究质量提供了重要指导。
CNVkit是一款CNV预测软件,适用于全外显子,目的区域靶向测序等数据的CNV检测,官网如下 https://cnvkit.readthedocs.io/en/stable/ 被很多高分文章引用, 示意如下 segment的划分,用法如下 cnvkit.py segment \ Sample.cnr \ -o Sample.cns 输出结果后缀为cns, 是cnvkit中定义的一种格式,和SEG格式类似,用来存储CNV 结果可视化 提供了以下3种可视化的子命令 diagram scatter heatmap diagram用于展示单个样本的CNV在染色体上的分布,用法如下 cnvkit.py diagram \ - heatmap子命令展示多个样本的CNV分布情况,用法如下 cnvkit.py heatmap *.cns 可视化结果示意如下 ?
基于全基因组数据分析CNV, 有以下4种经典策略 read-pair split-read read-depth assembly 每种算法都要其优势和不足之处,综合运用多种策略有助于提高检测的灵敏度 ,lumpy就是这样一款软件,集合了read-pair,split-read,read-depth, 等多种策略来预测CNV,文章链接如下 https://genomebiology.biomedcentral.com 如图A所示,对于单个样本,综合了read-pair, split-read, read-depth和已知的CNV位点4种信号来预测CNV;如图B所示,对于多个样本,综合多个样本的信号来预测CNV。 lumpy的框架是非常灵活的,扩展性很高,可以将其他分析软件的结果作为输入,比如将cnvnator的输出作为已知CNV的信号。在文章中,将lumpy和其他软件进行了比较,结果如下所示 ? 使用lumpy进行CNV检测的步骤如下 1. mapping 推荐采用bwa-mem算法将双端序列比对到参考基因组上,为了加快运行速度,这里用samblaster软件进行markduplicate, 用法如下
CNVnator是一款CNV检测软件,基于Read-Depth的分析策略,通过对全基因组测序数据进行分析来预测CNV, 源代码保存在github上,网址如下 https://github.com/abyzovlab Call CNVs 这一步分析每个segment区域的CNV, 代码如下 cnvnator -root file.root -call 1000 > cnv.call.txt -call指定窗口的大小, 第一列为CNV的类型,包括了deletion和duplication两种类型,第二列为CNV的染色体区域,第三列为CNV的长度,第四列为归一化之后的read depth, 归一化到0-1的范围,第五列到第八列为不同的 对于原始的cnv call的输出,还可以通过软件自带的脚本转换为VCF格式,代码如下 cnvnator2VCF.pl cnv.call.txt >cnv.vcf CNVnator的功能强大,运行速度快,
SNP芯片的CNV分析 基于SNP芯片进行CNV分析中的基本知识点 PennCNV:利用SNP芯片检测CNV 全基因组WGS数据的CNV分析 全基因组数据CNV分析简介 CNVnator原理简介 使用CNVnator 进行CNV检测 使用lumpy进行CNV检测 全外显子WES数据的CNV分析 WES的CNV分析简介 XHMM分析原理简介 使用conifer进行WES的CNV分析 使用EXCAVATOR2检测WES 的CNV 靶向测序的CNV分析 靶向测序的CNV分析简介 使用CNVkit进行CNV分析 DECoN:最高分辨率的CNV检测工具 已知的CNV数据库 DGV:人类基因组结构变异数据库 dbvar:染色体结构变异数据库 DGVa:染色体结构变异数据库 CNV相关疾病的数据库 CNVD:疾病相关的CNV数据库 DECIPHER:疾病相关的CNV数据库 CNV解读 文献解读|拷贝数增加临床意义分析指导手册 相比 同时并不是所有的CNV都有临床意义的,对CNV的结果进行解读,挖掘有意义的CNV也是一个挑战。 ·end· —如果喜欢,快分享给你的朋友们吧—
= sc.read(dataPath + 'ad_all_human_clustered_cnv_%s.h5ad' % model) ad_cnv.obs['CNV burden'] = (ad_cnv.to_df (int).mean(axis=0).values ad_cnv.obs['CNV burden deletions'] = (ad_cnv.to_df().T<0).astype(int).mean( axis=0).values ad_cnv.obs[['original_barcode', 'id', 'CNV burden', 'CNV burden amplifications', 'CNV =100, alpha=0.5) (ad_cnv.obs['CNV burden amplifications']*2).hist(bins=100, alpha=0.5) (ad_cnv.obs['CNV = sc.AnnData(df_infercnv_cnv.T) ad_cnv.obs = df_infercnv_meta.loc[ad_cnv.obs.index] ad_cnv.uns['cluster_colors
通过SNP芯片来检测CNV,对应的分析软件有很多,PennCNV就是其中之一,该软件通过隐马可夫模型来检测CNV, 官网如下 http://penncnv.openbioinformatics.org/ CNV calling 对于独立样本,检测CNV的命令如下 detect_cnv.pl \ -test \ -hmm lib/hh550.hmm \ -pfb lib/hh550.hg18.pfb \ 第一列为CNV的染色体区域,第二列为该CNV区域包含的SNP位点数目,第三列为CNV区域的长度,第四列中cn表示该CNV区域的拷贝数,后面依次是样本对应的输入文件,起始和终止的snp name, 打分值 筛选CNV 常见的筛选策略如下 根据长度和包含的位点数等统计指标进行过滤 根据染色体区域进行筛选,过滤掉位于特殊区域的CNV,比如着丝粒,端粒等区域 根据长度过滤的命令如下 filter_cnv.pl CNV的可视化 对CNV区域内SNP位点的LRR和BAF值进行可视化,命令如下 visualize_cnv.pl \ -format plot \ -signal sample.txt \ sampleall.rawcnv
目前通过靶向测序挖掘CNV的相关工具相对而言比较少,一篇发表在ScienceDirect上的文章对相关工具进行了测评,文章链接如下 https://www.sciencedirect.com/science 文章中列举的针对tg-NGS测序的CNV工具如下 ? CONTRA ExomeDepth CONIFER CANOES CODEX CLAMMS CoNVaDING DECoN CNVkit SeqCNV 所有的工具都是基于read depth的分布来预测CNV 二代测序CNV检测的最大挑战是各种系统误差,GC含量,重复序列,捕获效率,PCR偏倚等导致的测序深度分布不均匀,处理方法可以大致分为两种,第一种考虑各种因素进行建模,校正系统误差,第二种通过对照样本,通过实验样本和对照样本的比较 对于panel测序的CNV鉴别,推荐使用这3款软件。
分数cnv.tl.cnv_score(adata)# CNV聚类print(f"使用分辨率 {args.resolution} 进行CNV聚类...")cnv.tl.pca(adata)cnv.pp.neighbors ["cnv_leiden"].nunique()print(f"在分辨率 {args.resolution} 下获得 {n_clusters} 个CNV聚类")# 可视化print("生成可视化图表.. .")sc.pl.umap(adata, color=["cnv_leiden", args.cell_type_col], save="_cnv_clusters.png", show =False, wspace=0.5)cnv.pl.chromosome_heatmap(adata, groupby="cnv_leiden", save ="_cnv_heatmap.png", show=False)# 保存聚类结果cluster_file = os.path.join(args.output_dir, "cnv_clusters.tsv
肿瘤样本拷贝数变异 (CNV,copy number variation),即 somatic CNV 是最主要的体细胞突变之一。 值得一提的是对肿瘤外显子来分析CNV, 我测试过很多工具了: WES的CNV探究-conifer软件使用 单个样本NGS数据如何做拷贝数变异分析呢 肿瘤配对样本用varscan 做cnv分析 使用cnvkit 理想的 CNV 检测方法应该是能又快又准的定量基因组范围内拷贝数变化,同时能全面定位 CNV 发生的断点及其位置。 NGS数据的CNV检测的挑战 虽然测序技术逐步在提高,检测 CNV 的软件也一直在更新,但是肿瘤样本中 somatic CNV 的检测依然存在一些挑战。基本挑战包括:测序数据质量和测序策略选择。 CNV 在肿瘤样本基因组上具有广泛性以及多样性,因此 germline CNV 与 somatic CNV 不同之处在于,somatic CNV 可以发生在基因组任何区域且突变频率低。
基于Nanopore的三代测序,因为其长读长,单分子测序特点GC偏好性更小,对于重复区域和非唯一比对区域的覆盖性更好,因为其测序速度快,其在人基因组大片段CNV方面的准确性也很高,可实现24h CNV+ 本人现针对这些技术提供全方位的CNV分析方案。 针对Affymetrix的Cyto系列芯片和针对Illumina的Cyto系列芯片提供全自动从原始数据(.cel/.idat格式),到CNV列表和注释的方案,提供CNV报告模板方案,SNParray可做 blacklist,用于已知小CNV的过滤,对未知的小CNV可做提示 3.7 全基因组数据可视化 3.8 CNV结果自动化注释 基于探针的液相捕获,和基于多重PCR的小panel捕获测序的CNV分析方案 基于Nanopore的三代测序的CNV分析方案
excavator2是一款利用WES数据进行CNV分析的软件,其他同类软件通常只关注捕获的exon区域,而该软件则进行了延伸,将捕获区域划分为exon和非exon区域两部分,在校正测序深度的分布时对这两部分区域分别分别进行处理 EXCAVATORDataAnalysis.pl 执行HSLM segmentation算法和FastCall算法,进行CNV分析,用法如下 perl EXCAVATORDataAnalysis.pl --output指定了输出结果的目录,输出结果中提供了CNV区域对应的txt, VCF等文件,同时还提供了可视化的结果,示意如下 ?
除了利用aCGH和snp芯片来检测CNV之外,也可以通过NGS数据来分析CNV, 比如全基因组和全外显子测序。 针对全基因组CNV的检测,还针对开发了一种称之为CNV_seq的测序策略,指的是低深度全基因组测序,只需要5X的测序深度,就可以有效的检测CNV。 另外一端比对不上,可能是存在CNV, 通过将单独的reads进行拆分,使其能够正确比对到参考基因组上,拆分的点就是CNV的断裂点。 相比RP和SR两种方法,RD可以进行CNV分型,明确CNV的数目,RP和SR只能检测断点的位置, 而且RD可以检测大规模的CNV, 是目前较为主流的算法。 以上4种是最基本的算法理念,还有很多软件会综合其中的某几种算法来检测CNV, 比如speedseq中集成的lumpy软件,综合利用RP,SR, RD三种方式来检测CNV。
和xhmm类似,conifer也是一款利用WES的数据来检测CNV的软件。 对于ZRPKM矩阵,采用SVD进行分解,认为奇异值大的子矩阵为系统噪声,去除奇异值大的子矩阵之后重新构建SVD-ZRPKM矩阵, 然后通过threshold calling算法预测CNV区域,图示如下 CNV calling 进行cnv calling, 用法如下 python conifer.py call \ --input analysis.hdf5 \ ----threshold 1.5 \ 可视化 对感兴趣的CNV区域进行可视化,用法如下 python conifer.py plot \ --input analysis.hdf5 \ --region chr1:878657-889417 conifer用法简便, 适合检测1kb以上的CNV,软件要求CNV至少跨越3个exon区域,所以很短的CNV无法检测出来。
试用了两个软件用于测试CNV检测,虽然没有取得什么结果,记录和分享一下。 ichorCNA笔记 这个软件可以检测切除的肿瘤组织,识别其中的肿瘤细胞含量,也可以用来检测纯肿瘤组织。 chr12,chr13,chr14,chr15,chr16,chr17,chr18,chr19,chr20,chr21,chr22,chrX,chrY" \ /media/vd1/fastq/WGS/WGS-CNV copyNumbersCalled, format="vcf") exportBins(copyNumbersCalled, format="seg") dev.off() 总结,没有可靠结果,软件暂时认为不可用于10Kb以下的CNV
在表示CNV时,蓝色代表gain, 红色代表loss。 2. Phenotype browser 查看各种表型对应的信息,结果示意如下 ? 点击Find all链接,可以查看该表型相关的CNV数据。 CNV Syndromes 展示了与发育障碍综合征相关的CNV变异,以list和染色体分布两种形式进行展示, 示意如下 ? ? 5. 通过该数据库,可以查看已知的疾病相关的CNV信息,在筛选致病性CNV时,可以作为一个过滤条件。