搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏科研猫
单细胞测序系列（1）--单细胞全基因组测序
今天，我们就来说说单细胞测序的整套流程，以单细胞基因组测序为例，主要包括四个步骤：单细胞分离→全基因组扩增→高通量测序→数据分析。 2 单细胞全基因组扩增单细胞全基因组扩增(whole genome amplification,WGA)其原理是通过将单个细胞溶解得到微量基因组DNA进行高效地扩增，获得高覆盖度的单细胞基因组的技术。 MDA是目前公认的较好的单细胞基因组扩增技术，样本无需纯化，操作简单，它能对全基因组进行高保真的均匀扩增，扩增出10~100kb大小的片段，能提供大量均一完整的全基因组序列。 ? 3 单细胞全基因组测序全基因组测序是筛查单细胞SNP（单核苷酸多态性）及CNV（拷贝数变异）的有效手段。在基因组中，外显子虽然只占其全长的1%，却包含了约85%疾病相关的变异位点，因此，外显子组测序也十分重要。外显子组测序只对外显子进行富集、扩增，所以其相比全基因组测序能更加高效、更利于编码序列的读取。
6.3K42发布于 2019-09-24
来自专栏生信技能树
全基因组测序的7个概念（学徒翻译）
什么是基因组？ 基因组是生物体的一套完整的遗传信息。基因组包括创造和维持生命的所有遗传指令和繁殖指令。人类基因组和其他细胞生命形式一样由DNA组成，包括核DNA和线粒体DNA。药物基因组学是精确医学的一个组成部分。通过结合药理学和基因组学，药物基因组学研究特定药物对一个人的基因组指纹的影响。全基因组测序是什么？ NCI将人类全基因组测序定义为：一种被用于确定个体完整DNA序列（包括非编码序列）中的几乎全部近30亿核苷酸的的实验室方法。该模块的重点是人类的全基因组测序。全基因组测序原本通过Sanger测序来测序人类基因，这花费了十多年的时间和十多亿美元。现在，我们运用被称为“次代测序”、“大规模平行测序”和“高通量测序”的新技术。这些新技术较传统Sanger测序可以更快更低廉地对DNA、RNA进行测序，通常大约花费几天和一千美元。参阅《肿瘤组织病理学评估》中的“肿瘤学中的常用病理学检查”一节以获取该技术的更多细节。
1.4K20发布于 2019-08-22
基因组测序简介
，我们看到了基因组测序技术在花费成本和时间上的大幅减少。 [dt00f3blez.png] 每个长字符串都有大约一千万到三千万个可能出现这种差异的地方，这使得事情变得有趣了起来。当然，事实上基因组肯定比字符串更复杂。但是它确实是基因组数据的合理抽象类比。 [5a2b5dr3mk.jpeg] 基因组测序简介 基因组测序就是使用化学方法和记录技术依次（按顺序）读取编码基因组的字符（A，G，C，T）。 [j3vqba7toq.png] （图片来源：Frederic Reinier，已授权使用）在过去五年中，测序实验已将基因组变量与数百种罕见疾病联系起来： “单独而言，一种罕见的疾病可能只影响少数家庭今天，基因组可以在3天内进行测序，价格大约为1000美元（更多信息，请查阅美国国立卫生研究院：国家人类基因组研究所（NHGRI）> DNA测序成本）。
1.7K50发布于 2018-02-01
来自专栏生信菜鸟团
转移性尿路上皮癌全基因组测序
研究方法：病人和样本：116名计划接受系统性姑息治疗的mUC患者的新鲜转移肿瘤活检样本测序策略：116名患者进行了全基因测序 WGS ，90名患者进行了 RNA测序。数据处理流程：对于WGS ，测序读长是 2*150，数据处理流程是按 Nature 上泛癌全基因组文章的方法来 Pan-cancer whole-genome analyses of metastatic 显着突变的基因与原发性 UC 中报道的相似，但与基因组亚型不对应。研究者整合了基因组和转录组数据，为每个转录组亚型和个体患者提出了潜在的治疗选择。研究结论：该研究首次基于对116名mUC患者的转移活检样本的全基因组和转录组分析，并且分别定义了mUC的分子亚型。
29910编辑于 2024-05-11
来自专栏生信喵实验柴
宏基因组建库测序
宿主污染是影响非常大的因素，尤其是病毒检测，由于同一细胞内，病毒基因组与宿主基因组丰度相差太大。如果全部进行测序，很难测序到病毒的序列。尤其是在做病毒宏基因组研究中，由于宿主细胞与微生物细胞二者基因组相差巨大，例如一个人细胞包含 3G 数据，而一个病毒细胞可能只有 30K，二者相差 10 万倍，这就导致测序数据中绝大部分都是来源于宿主的序列不同测序平台比较平台二代测序 Pacbio Nanopore 优点 1、数据量大2、价格便宜3、测序丰度高，可以鉴定低丰度微生物 1、可以得到 16S 全长序列；2、准确性高，鉴定准确 1、可以进行实时测序，方便进行快速鉴定2、可以得到 16S 全长；3、宏基因组进行拼接效果较好；缺点 1、读长短，唯一性差2、测序速度慢，不能进行快速鉴定；3、16S 测序无法得到全长；4、不便于宏基因组拼接； 1、价格高 2、数据量低，不能进行定量鉴定3、无法实时测序，进行快速鉴定 1、价格贵2、错误率高3、16S 序列错误率较高写在最后：有时间我们会努力更新的。
1.4K10编辑于 2023-02-24
来自专栏新智元
【精度平均最高80%】机器学习+全基因组测序，准确预测人体特征
【新智元导读】人类长寿公司的研究人员最近在PNAS发表了一篇论文，利用全基因组测序数据，使用机器学习方法，预测个体的性状。人类长寿公司的研究人员最近在PNAS发表了一篇论文，利用全基因组测序数据，使用机器学习方法，预测单个人的性状。具体到这项研究，研究人员从1,061名18~82岁、不同种族的被试中抽取基因组测序样本信息。研究人员还采集了3D面部图像、语音样本、身高、体重等数据。研究人员开发了一种名为最大熵的机器学习算法，并表示如果有更多的数据，模型能够得出更好的预测结果（也即将全基因组测序数据与表型和人口统计数据相匹配）。实验中，机器学习算法发现了所有预测模型的组合。为了探索目前基于表型的基因组的鉴定能力，我们应用全基因组测序、详细表型分析和统计建模，预测了不同祖先的1,061名参与者的生物特征。
93940发布于 2018-03-22
来自专栏天意生信俱乐部
基于PacBio HiFi数据的人类全基因组重测序变异分析流程
这为人类全基因组重测序（WGS）分析，尤其是复杂区域和结构性变异（Structural Variation, SV）的检测，带来了革命性的进步。全基因组重测序（WGS）旨在全面检测个体相对于参考基因组的遗传变异，包括单核苷酸变异（SNV）、小片段插入缺失（Indel）和结构性变异（SV）。传统的短读长测序（如Illumina）在检测基因组重复区域和复杂SV方面存在局限性。 2.序列比对: 使用 pbmm2 将HiFi reads比对到人类参考基因组。 3.变异检测: 使用 DeepVariant 检测SNVs和Indels。（2）加载参考基因组 (File > Load Genome... 或选择预置的，如 hg38)。（3）加载比对文件 (File > Load from File...
1.5K10编辑于 2025-04-22
来自专栏生信菜鸟团
肿瘤基因组测序数据高级分析--肿瘤基因组测序数据分析专栏
简介大多数肿瘤基因组综述类文章，对于数据分析部分只是介绍了基础分析部分，也就是从原始的 fastq 文件通过质控、比对、GATK流程、Call 变异最后得到 vcf 文件和拷贝数变异的结果就结束了。肿瘤微卫星稳定性分析微卫星(Microsatellite)，基因组中的一类短串联重复DNA序列，一般由1-6个核苷酸组成，呈串联重复排列。由于其核心重复单元重复次数差异，微卫星具有群体多态性。最初TMB通过全外显子测序（WES）进行检测表征，其本质上认为基因突变仅限于外显子（编码区）；后来也有很多文章基于特定 Panel 数据评估 TMB，或者基于 ctDNA 数据评估 bTMB等，原理都一样肿瘤纯度和倍性评估通常来说，对肿瘤组织进行测序，往往是一个混合样品，既包括肿瘤细胞也包括正常细胞，因此需要进行肿瘤纯度 purity 的评估。当从混合样品中提取 DNA 进行测序后，得到的也是一个混合样品的结果。肿瘤不一定是单纯的二倍体了，其本身异质性高，直接分析拷贝数变异，得到的结果并不准确，评估肿瘤倍性 ploidy 也更加必要。
4.8K43发布于 2021-10-12
来自专栏小明的数据分析笔记本
大肠杆菌全基因组重测序变异检测小实例（侧重变异过滤）
本文偏重对vcf文件的探索以及设置过滤标准原文地址 Filtering and handling VCFs fastq测序获取数据未找到原文所用数据，本文使用GATK4.0和全基因组数据分析实践（上）文章中的大肠杆菌基因组作为参考序列，使用wgsim软件模拟生成双端150bp测序数据 wgsim -N 80000 -1 150 -2 150 .. 接下来是参考序列接下来是fastq文件的名字使用samtools变异检测获取vcf文件这一部分参考文章 GATK4.0和全基因组数据分析实践（上） Variant calling tutorial > sim_variants_3sample.bcf ###其一 time bcftools call -v -c sim_variants_3sample.bcf > sim_variants_3sample.vcf image.png 这部分的解释自己还没有太看懂，留待后续分解根据位点质量值和测序深度过滤我们的vcf文件 vcftools --vcf ..
2.1K10发布于 2020-03-03
来自专栏生信喵实验柴
二代测序基因组拼接实战
其中两株细菌已包含发表出来的全基因组序列。 doi https://doi.org/10.6084/m9.figshare.7649051 (https://doi.org/10.6084/m9.figshare.7649051). 3. 通常只要给软件输入测序的数据，即可拼接出很好的全基因组。影响基因组拼接的因素很多，包括内在因素来自基因组本身的重复序列，多倍体杂合，还包括外在因素测序错误，测序饱和度等。 1、重复序列是基因组拼接最大的影响因素。测序数据无法跨过“重复序列”区域，遇到重复区则“断开”； 2、多倍体杂合：多倍体需要测序更多的数据，杂合造成更多的“气泡”； 3、测序错误：测序错误导致 kmer 之间无法连接，
3.4K40编辑于 2022-05-23
来自专栏生信喵实验柴
二代测序宏基因组拼接
由于基因组本身具有的高度重复序列，多倍体杂合位点，低复杂度区域以及测序错误等诸多条件的影响，基因组拼接一直是一项非常复杂且困难的工作。尤其是基因组重复序列的影响，一直是二代短读长测序最难解决的问题，尽管后来基于二代测序数据开发除了一些辅助拼接方案，例如大片段文库，Optical mapping光学图谱，三位基因组等辅助方案，都无法彻底解决基因组拼接难题纳米孔测序的宏基因组拼接，由于测序长度更长，可以直接拼接出一些细菌完整的基因组序列，而这些细菌往往无法通过传统纯培养的方法获得，这为获得无法纯培养样品得到完整基因组序列提供了新思路。影响基因组拼接的因素很多，包括内在因素来自基因组本身的重复序列，多倍体杂合，还包括外在因素测序错误，测序饱和度等。 ://sra-pub-run-odp.s3.amazonaws.com/sra/ERR2935852/ERR2935852 axel -n 100 https://sra-pub-run-odp.s3.
1.6K10编辑于 2023-02-24
来自专栏简说基因
短讯 | 利用开源 Galaxy 平台简化临床细菌全基因组测序数据分析
本文介绍了开源的 Galaxy 平台在简化临床微生物全基因组测序数据分析方面的作用。我们认为，该平台将有助于快速且低成本地进行细菌全基因组测序数据分析，尤其适用于资源有限的环境。引言下一代测序（NGS）降低了测序成本并显著提高了测序通量，使得在数小时内对细菌病原体全基因组进行常规测序成为可能，并能获得对获得性抗菌药物耐药性基因相当全面的分析结果 [7,8]。讨论尽管下一代测序已彻底改变了医学和诊断学的许多方面，但全基因组测序在常规临床微生物学中的应用仍通常局限于参考中心、罕见耐药机制的鉴定、研究目的或回顾性流行病学监测。 Galaxy 平台便于缺乏高级生物信息学技能的临床微生物学家进行细菌全基因组测序数据分析。其使用可促进全基因组测序方法在许多临床微生物学环境中的应用，成本低且无需大量培训。
31610编辑于 2025-11-24
来自专栏科研猫
69 种基于全基因组测序数据分析结构变异的算法评估
在今年的 6 月份，基因组学领域的权威期刊Genome Biology发表了一篇方法学评估类文章，在这篇文章中作者系统地分类和评估了目前主要的69种基于全基因组测序（whole genome sequencing 导言如果你已经听说过中国的10万人基因组计划和UK Biobank的50 万人基因组计划就会知道，未来是最不缺全基因组测序数据的。我个人一直相信全基因组测序会在不久的将来成为疾病/药物研究、表型关联分析等领域的首选测序技术。哪怕是截止现在，单单在美国 St. Jude 儿童研究医院的云计算平台就已经托管了超过 11000 例全基因组测序数据样本。我不知道在国内现在是怎样的一番情况。全基因组测序技术是目前最常见、最具应用前景的高通量测序技术之一。每一个细胞均包含着我们的全部基因组信息（约 30 亿个碱基对）[3]。无时无刻，我们体内都有大量细胞在消逝，也有大量细胞在生成，即细胞的新陈代谢过程。
2.6K10发布于 2019-10-28
来自专栏三代测序-说
全基因组 - 人类基因组变异分析（PacBio) （3）-- pbmm2
BWA-MEM 是一种新的比对算法，用于将测序 reads 或者组装后 contigs 比对至大型参考基因组，例如人参考基因组。 1.参考基因组的获取分析前，除测序数据外，我们还需准备对应物种的参考基因组fasta文件。对此可以根据自己研究的需要，在NCBI、Ensembl、UCSC等常见数据库中进行下载。注释： Ensembl提供的参考基因组有2种组装形式和3种重复序列处理方式，分别是primary,toplevel,unmasked(dna),soft-masked(dna_sm),masked(dna_rm 2. pbmm2安装 #使用conda安装pbmm2 $ conda install -c bioconda pbmm2 #安装版本 v1.13.0 3. pbmm2使用建立人类参考基因组索引 Index 神灯宝典之PB三代重测序分析实录（一）你可能不知道的基因组注释文件冷知识超精华生信ID总结，想踏入生信大门的你-值得拥有
2.2K50编辑于 2023-11-23
来自专栏医学数据库百科
GENIE | 大型肿瘤基因组测序数据集
#TCGA]] 但是除了 TCGA 之外，还有很多公共的有组织的大型测序数据集。其中就包括了，我们之前介绍的 [[MSKCC-肿瘤相关基因组检测公共数据库介绍]] 的数据。和 TCGA 不同的是，目前的 GENIE 主要包括的还是基因组测序的数据。目前这个版本包括了超过 111, 000 名患者的近 120, 000 个测序样本。但是也由于这个数据集主要还是分析基因肿瘤基因组的变化，另外相对应的临床信息也少一些。所以基本的一些研究也是集中于肿瘤特征性的突变研究上。其他数据集介绍测序数据集 [[Met500-肿瘤转移数据集介绍]] [[MSKCC-肿瘤相关基因组检测公共数据库介绍]] [[ENCODE-转录调控必知数据库]] 流调数据集 [[HINTS-美国健康信息趋势调查数据集
2K10编辑于 2022-04-01
来自专栏科研猫
二代测序的基因组数据分析入门（illumina测序原理篇）
越先到达毛细管正极的DNA片段越短，它聚合的终止位置离聚合起始位置越近，因此它的颜色就反映了离3’末端最近的碱基的种类。下面正式开始建库： 1、首先把基因组DNA用超声波打断； 2、打断之后会出现末端不平整的情况，所以我们先要将它补齐成平末端； 3、补平之后要在3’端使用klenow酶加上一个特异性碱基A； 4、 3、在flowcell中加入中性液体中和碱液，使环境变为中性。这时DNA链上的另外一端会弯曲下来与另一个引物发生互补杂交。加入聚合酶和dNTP,聚合酶沿着第二个引物，合成出一条新的链。但是，dNTP的一个特点就是它的3’末端是被一个叠氮基团堵住的，所以它一个循环只能延长一个碱基。一个循环结束之后就加入一些化学试剂把叠氮基团和标记的荧光基团切掉，使3’端的羟基暴露出来，再加入新的dNTP和聚合酶开始第二轮循环。
16.2K514发布于 2019-10-28
来自专栏有困难要上，没有困难创造困难也要上！
使用SPAdes测序数据拼接软件拼装基因组
Petersburg Academic University 与美国科学家合作开发的主要应用于小型基因组如细菌，真菌等基因组测序数据的拼接软件。目前的最新版本 v3.6.2 可以支持常见的 illumina miseq/hiseq 和 ion torrent 测序数据，对单分子测序平台的 pacbio 和 nanopore 的测序数据也能进行拼装 -it --rm -v `pwd`:/spades quay.io/biocontainers/spades:3.12.0--1 bash # 运行一下测试 spades.py --test 拼装基因组
2.3K10发布于 2019-03-20
来自专栏生信技能树
基因组重测序的unmapped reads assembly探究【直播】我的基因组86
在前面的直播基因组系列，我们讲解过那些比对不少我们人类的参考基因组序列的数据，其实可以细致的进行探究。直播】我的基因组（十五）:提取未比对的测序数据这里主要参考这篇文章的图4：http://www.nature.com/ng/journal/v42/n11/figtab/ng.691F4.html analysis of a Japanese individual using massively parallel sequencing 虽然文章选择的是SOAPdenovo,ABySS,Velvet这3款软件来进行组装 /minia -in reads.fa -kmer-size 31 -abundance-min 3 -out output_prefix 软件使用方法也非常简单，就一行命令，其中最佳 -kmer-size kmergenie --help cd ~/data/project/myGenome/gatk/jmzeng/unmapped~/.local/bin/kmergenie unmapped.fq step3:
2.3K160发布于 2018-03-09
来自专栏生信开发者
那些基因组上的二代测序盲区
人类基因组36bp唯一比对区域大约只占了人基因组大小的71%，因为二代测序短读长的特性，很多非唯一比对区域的特异性不是很好，在这些区域内的变异，不论是点突变还是CNV/SV，其可靠性都不是很高 Encode有一个project，对基因组上的各种不同长度序列的比对唯一性做了评估。因为二代测序基本全是基于PCR的测序技术，这些区域本身测序的质量也会差，比对率会降低。在call CNV的时候尤其需要考虑GC校正。对于WES的CNV分析，本人最近计算了常规的几个WES的靶向区域的平均unique mappability score，并对（做了GC校正后）分析出来的基因组上的log2Ratio的分布做了可视化，将低
1.1K20编辑于 2022-03-08
来自专栏生信喵实验柴
三代测序宏基因组物种分类鉴定
三、centrifuge 物种鉴定 centrifuge 的使用非常简单，输入数据包含测序的数据以及索引文件。可支持二代和三代测序数据，输入为 fastq 格式文件即可，也支持 fasta 格式以及原始 qseq 格式文件，同时支持pairend 数据，也支持压缩格式。其中索引只写前缀名即可。物种分类层级 rank； 4、对应基因组大小； 5、比对到的 reads 数目，包括多重比对的结果； 6、唯一比对上的 reads 数目； 7、比对的丰度，比对上区域/基因组长度。 awk -F "\t" '{if ($3=="species" && $6 >5) print $1"\t"$6}' 0.01_report.tsv >0.01.txt 当然也可以用R语言去筛选和排序表格
1.2K30编辑于 2023-02-24

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

单细胞测序系列（1）--单细胞全基因组测序

全基因组测序的7个概念（学徒翻译）

基因组测序简介

转移性尿路上皮癌全基因组测序

宏基因组建库测序

【精度平均最高80%】机器学习+全基因组测序，准确预测人体特征

基于PacBio HiFi数据的人类全基因组重测序变异分析流程

肿瘤基因组测序数据高级分析--肿瘤基因组测序数据分析专栏

大肠杆菌全基因组重测序变异检测小实例（侧重变异过滤）

二代测序基因组拼接实战

二代测序宏基因组拼接

短讯 | 利用开源 Galaxy 平台简化临床细菌全基因组测序数据分析

69 种基于全基因组测序数据分析结构变异的算法评估

全基因组 - 人类基因组变异分析（PacBio) （3）-- pbmm2

GENIE | 大型肿瘤基因组测序数据集

二代测序的基因组数据分析入门（illumina测序原理篇）

使用SPAdes测序数据拼接软件拼装基因组

基因组重测序的unmapped reads assembly探究【直播】我的基因组86

那些基因组上的二代测序盲区

三代测序宏基因组物种分类鉴定

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

单细胞测序系列（1）--单细胞全基因组测序

全基因组测序的7个概念（学徒翻译）

基因组测序简介

转移性尿路上皮癌全基因组测序

宏基因组建库测序

【精度平均最高80%】机器学习+全基因组测序，准确预测人体特征

基于PacBio HiFi数据的人类全基因组重测序变异分析流程

肿瘤基因组测序数据高级分析--肿瘤基因组测序数据分析专栏

大肠杆菌全基因组重测序变异检测小实例（侧重变异过滤）

二代测序基因组拼接实战

二代测序宏基因组拼接

短讯 | 利用开源 Galaxy 平台简化临床细菌全基因组测序数据分析

69 种基于全基因组测序数据分析结构变异的算法评估

全基因组 - 人类基因组变异分析（PacBio) （3）-- pbmm2

GENIE | 大型肿瘤基因组测序数据集

二代测序的基因组数据分析入门（illumina测序原理篇）

使用SPAdes测序数据拼接软件拼装基因组

基因组重测序的unmapped reads assembly探究 【直播】我的基因组86

那些基因组上的二代测序盲区

三代测序宏基因组物种分类鉴定

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

基因组重测序的unmapped reads assembly探究【直播】我的基因组86