介绍 文章对已知的多种细胞系混合后进行单细胞10X RNA测序,研究多克隆之间的互作模式。我们这里介绍里面的单细胞测序基因表达细胞分类操作。 & n_cls < 100+param_range) { clust_res <- 4 } else { stop('Not implemented') } 根据之前QC时的标记,选择过质控的细胞 = 'pca', dims = 1:n_pcs, k.param = 10 FindClusters(seuObj, resolution = clust_res, verbose = FALSE) 原文出处 http://www.thecodesearch.com/2021/02/04/10x 单细胞测序细胞分类/
最重要的两个特点就是DNA复制、分裂成两个一样的子细胞。 在分析单细胞数据时,同一类型的细胞往往来自于不同的细胞周期阶段,这可能对下游聚类分析,细胞类型注释产生混淆;由于细胞周期也是通过cell cycle related protein 调控,即每个阶段有显著的 marker基因;通过分析细胞周期有关基因的表达情况,可以对细胞所处周期阶段进行注释;在单细胞周期分析时,通常只考虑三个阶段:G1、S、G2M。 下面文章中的:sce3 单细胞专题 | 9.如何人工注释单细胞类群? 具体参考文章【单细胞数据分析中scran包进行细胞周期分析时细胞周期marker基因的转换】 ###基因转换 library(clusterProfiler) library(org.Hs.eg.db)
摘要 大语言模型(LLMs)正通过助力 “虚拟细胞” 的开发来变革细胞生物学 —— 虚拟细胞是能表征、预测并推理细胞状态与行为的计算系统。本研究对用于虚拟细胞建模的大语言模型进行了全面综述。 提出了一个统一的分类体系,将现有方法归为2大范式:作为 “神谕” 的大语言模型(用于直接细胞建模)和作为 “智能体” 的大语言模型(用于协调复杂科学任务)。 明确了3大核心任务 —— 细胞表征、扰动预测和基因调控推断,并综述了与之相关的模型、数据集、评估基准,以及在可扩展性、泛化性和可解释性方面的关键挑战。 引言 图1 细胞多尺度组织示意图 图2 基于人工智能的虚拟细胞建模主要任务概述 作为神谕/智能体的大语言模型:用于虚拟细胞研究 图3 大语言模型邂逅虚拟细胞的分类体系 详细总结 思维导图 核心任务定义
单细胞测序技术以单个细胞作为对象,通过对单个细胞遗传物质均匀扩增,标记建库后进行测序,最后对单个细胞基因组或转录组展开数据分析,其技术原理主要包括单细胞分离、扩增测序和数据分析3方面。 市场上,较成熟的商业单细胞测序公司主要有 10X Genomis 公司 的Chromium( 液滴法) 及 BD 公司的Rhapsody( 微孔法)。 这里重点介绍 10×genomics技术。 10个碱基长的UMI,有100万种序列的变化(4^10 = 1,048,576),UMI的作用是为了区分哪些哪些reads是来自于一个原始cDNA分子,区分基因片段重复还是duplication及区分是真实的 3' 端文库的构建 通过10×genomics仪器将单个细胞与单个凝胶微珠通过油相混在一起,形成油包水的小微滴,接下来把细胞膜破掉,让细胞当中的mRNA游离出来。 10x Chromium是一种高通量方法,使用UMIs进行定量,适合研究高度异质组织和大量的细胞样本。 后面介绍数据怎么分析............
然而人们对构成人体肝脏的细胞类型和免疫微环境知之甚少。作者使用10x单细胞RNA测序手段绘制了人类肝脏细胞全景图,从来自五个人新鲜肝脏组织中分离得到的8444个实质和非实质细胞转录谱。 10x样品处理和cDNA文库制备 将组织破碎获得悬浮细胞溶液后,用台盼蓝染色计数检测细胞活率,在49-90%范围,使用10x Genomics Single Cell 3′ v2 Reagent Kit 用10x官方的CellRanger产生表达矩阵,接着用R包进行过滤、归一化、聚类。 过滤器阈值通常设定为10%,但是肝细胞线粒体含量很高,因此作者选择了阈值为50%,以优化保留肝细胞而去除死亡和垂死的细胞。作者还过滤除去了双核细胞。 ? MARCO也在临床前小鼠结肠癌模型中进行了检查,观察到MARCO的表达定义了抑制性肿瘤相关巨噬细胞(TAMs)的亚型。 这些TAMs可以通过抗MARCO抗体极化为炎症表型,促进了肿瘤免疫原性。
Para_02 我们使用来自56项研究(包括46项scRNA-seq和10项snRNA-seq)的7,886,247个单细胞谱数据集训练了SCimilarity模型,其中包含203个Cell Ontology 因此,虽然SCimilarity仅在10x Genomics Chromium数据上进行训练,但它有效地推广到了其他单细胞分析平台。 另外,从2340万细胞的参考中识别出得分最高的10,000个细胞只需0.05秒(方法)。 相比之下,用文献定义的FM基因特征对语料库中的每个细胞进行评分需要2小时46分钟(未显示)。 背景细胞是通过随机采样距离查询细胞(FM)SCimilarity得分最远的500个细胞来选择的,这些细胞不在排名前10,000的细胞内(在体内的单核细胞和巨噬细胞范围内)。 为了评估聚类中心的质量,其底层细胞被细分为10个聚类(k=10),然后从细分聚类中计算出10个聚类中心,并对每个聚类中心最相似的100个邻居进行SCimilarity搜索(默认n=100最近邻)。
单细胞数据质量控制的核心诉求是什么? 答:去掉各种各样的低质量的细胞 。 单细胞数据质量控制的主要做了什么? 一般是指细胞的过滤,其实是从一个barcode X gene矩阵中过滤掉一部分不是细胞的barcode,如细胞碎片,双细胞,死细胞等。 percent_hb(红细胞基因表达比例):表明红细胞这个单细胞亚群的比例,一般来说不研究红细胞,所以过滤它没有问题。 percent_mito(线粒体基因表达比例):表明细胞状态,值过高可能是濒临死亡的细胞,同样,不能一概而论,有些组织样本的细胞处于高代谢过程,该值会高于正常组织。 关于整不整合数据,时要根据实验设计和单细胞数据本身决定的,其中,在整合数据是为了更好的注释细胞亚群,而不用纠结为什么相同的细胞亚群在UMAP展示的时候相隔千里,当然这可能是因为样本特异性导致的离群细胞亚群
引言 本系列讲解 单细胞(scRNA-seq)中RNA“速率”分析教程 动态建模 我们采用广义动态模型来解析完整的转录动态过程。 我们运行动态模型,以学习剪接动力学的完整转录动态。 该模型在基于似然的期望最大化框架中求解,通过迭代估计反应速率参数和细胞特异性潜在变量(即转录状态和细胞内潜在时间),从而学习每个基因的未剪接/剪接相轨迹。 这些参数有助于更好地理解细胞身份和表型异质性。 潜在时间 动态模型可恢复潜在的细胞过程的潜在时间。这种潜在时间代表细胞的内部时钟,仅根据转录动态,近似细胞分化过程中经历的实际时间。
内存模型 主存储器与工作存储器 主存储器 方法区(Method Area) 方法区用于存储类的信息, 常量, 静态变量, 即时编译器编译后的代码. 栈(Java Virtual Machine Stacks) 代表着Java方法执行的内存模型, 每个方法执行时都会创建一个栈帧来存储方法的变量表, 操作数栈, 动态链接方法, 返回值, 返回地址等信息
首先关于visium HD, poly-A based gene expression和probe-based gene expression均已可用,也就是说新鲜组织样本与FFPE样本均可以做10X的 在Visium HD分析中Space Ranger利用StarDist实现进行细胞分割,该深度学习模型非常适合星形凸体的实例分割,如细胞核。 万个图块进行训练,包括如下组织类型:人类:胸腺、皮肤(黑色素瘤)、前列腺、结肠、结肠癌、乳腺癌、乳腺癌、扁桃体、胸腺、脑癌、脑癌、肺癌、肺癌和脾脏小鼠:脑、骨、睾丸、小肠、脾、胚胎、肝、肺、肾和胸腺(10X 从目前搜集的情况来看,有4篇HD的实验类文章,其中一篇用到的是单细胞空间联合,另外三篇全部是细胞分割,由此可见细胞分割是大趋势。 )顶刊分享----组织驻留记忆CD8 T细胞多样性具有时空印记(HD + cellpose + Xenium)文献分享--颗粒酶K+CD8+ T细胞与成纤维细胞相互作用,促进鼻息肉中性粒细胞炎症(首篇10X
搜索超参数空间以优化超参数需要明确以下方面: 估计器 超参数空间 交叉验证方案 打分函数 搜寻或采样方法(网格搜索法或随机搜索法) 优化模型的常见方法包括 网格搜索法,随机搜索法,模型特定交叉验证, 三, 模型特定交叉验证 一些特定的模型,sklearn构建了一些内部含有交叉验证优化机制的估计器。 它们主要是在linear_model模块。 四, 信息准则优化 模型选择主要由两个思路。 解释性框架:好的模型应该是最能解释现有数据的模型。可以用似然函数来度量模型对数据集描述能力。 预测性框架:好的模型应该是最能预测结果的模型。 通常模型参数越多越复杂,越容易出现过拟合。 所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。 AIC(赤池信息准则)和BIC(贝叶斯信息准则)对模型的选择提供了一种判据。 AIC信息准则选择AIC最大的模型。 BIC信息准则选择BIC最大的模型。
鉴于偏差和偏差来源的多样性,需要对机器学习模型中的相关起源和类型的偏差进行敏感性评估。 本文的观点集中在与基于人类单细胞数据训练的机器学习模型相关的偏差上。 Para_04 为了识别与单细胞ML模型相关的偏差,我们首先总结了基于机器学习的单细胞基因组学领域的最新进展,并简要说明了基于人类单细胞样本的ML模型开发流程。 在评估基于人类单细胞数据训练的ML模型的伦理性时,所有这些偏差都应被考虑在内。 目前最广泛使用的实验室协议由10X Genomics开发(文献29),在此协议中,单个细胞被分离和裂解,然后捕获mRNA。 基因组测序预计将会结束关于种族类别的生物学基础长期争论38,39,通过表明基因组谱系与诸如种族类别这样的社会构建不相关联9,10,40。
让我们一起来看看这个GSE190856的脓毒症小鼠模型单细胞转录组数据吧。 首先读取作者提供的表达量矩阵文件 因为是标准的10x技术的单细胞转录组,使用作者在GEO上面给每个样品都是一个压缩包: GSM5733020_H001.tar.gz 76.2 Mb GSM5733021 GSM5733027_H008.tar.gz 99.3 Mb GSM5733028_H009.tar.gz 80.3 Mb GSM5733029_H011.tar.gz 79.7 Mb 压缩包解压后就是10x (samples,function(pro){ # pro=samples[1] print(pro) sce =CreateSeuratObject(counts = Read10X , 1:2]) head(sce.all@meta.data, 10) table(sce.all$orig.ident) 然后质量控制并且降维聚类分群即可 质量控制其实每个数据集不一样的,取决于单细胞转录组来源的技术
最近在安排学徒单细胞分享的时候,有一个学徒提到了GSE168522这个数据集,是很标准的6个10x单细胞转录组样品,如下所示: GSM5145401 Sample 16_Normal-1 GSM5145402 》有它的介绍:单细胞测序揭示阿尔兹海默症的B细胞相关标志物 可以看到原文提到的每个10x的单细胞转录组样品细胞数量蛮合理(5到8千),如下所示: 细胞数量蛮合理 作者的降维聚类分群也是超级简单,就是第一层次而已 10X公司为主流,我们也是在单细胞天地公众号详细介绍了cellranger全部使用细节及流程,大家可以自行前往学习,如下: 单细胞实战(一)数据下载 单细胞实战(二) cell ranger使用前注意事项 一个简单的脚本就可以处理全部的6个10x单细胞转录组数据文件: cat id.txt |while read id;do (nohup bash run-cellranger.sh $id 1>log 首先是批量读取6个10x的单细胞转录组样品 rm(list=ls()) options(stringsAsFactors = F) library(Seurat) library(ggplot2) library
尽管已有一些针对单细胞RNA-seq(scRNA-seq)数据的基石模型(如Geneformer、scGPT等),但这些模型并不适用于scATAC-seq数据。 数据集与模型训练 为了训练和验证EpiFoundation,研究人员构建了一个名为MiniAtlas的数据集,包含超过10万个单细胞的配对scRNA-seq和scATAC-seq数据,涵盖了19种组织和 在模型训练过程中,EpiFoundation首先将非零峰值及其对应的染色体信息转换为输入嵌入,然后通过Transformer块生成细胞表示。最后,模型通过预测基因的二元表达来完成峰值到基因的对齐任务。 这一过程不仅提高了模型的效率,还确保了细胞表示能够准确反映表型信息。 下游任务表现 EpiFoundation在多个下游任务中表现出色,包括细胞类型注释、批次校正和基因表达预测。 随着单细胞测序技术的不断发展,EpiFoundation有望成为该领域的重要基石模型,推动单细胞多组学研究的进一步深入。
虽然遗传学研究已经在人类基因组中绘制了超过10万个与疾病相关的变异,但我们不知道这些变异中的大多数在哪些细胞中活跃,以及它们执行什么功能。 在这里,我们探讨了细胞图谱的五个当前和未来的视角:作为细胞普查、三维地图、时间发育地图、基因型到表型地图以及细胞生物学的多模式基础模型(图1)。 在实验方面,人类细胞图谱(HCA)必须收集为算法的规模和需求量身定制的数据,以便它们能够学习适当的模型。 最近,像SCimilarity22这样的方法则专注于学习在新定义的任务中表现良好的基础模型,例如在整个图谱中查询整个细胞概况。 Para_04 我们预计许多其他任务将使用基础模型来解决。 基础模型对于跨尺度整合(作为多模态地图的细胞图谱)和跨身体整合(为最终的细胞普查)也将至关重要。
所以我们采用ORM模型 ORM模型介绍 orm全称Object Relational Mapping,中文叫做对象关系映射,通过ORM我们可以通过类的方式去操作数据库,而不用再写原生的SQL语句。 通过把表映射成类,把行作实例,把字段作为属性,ORM在执行对象操作的时候最终还是会把对应的操作转换为数据库原生语句 ORM的优点 易用性:使用ORM做数据库的开发可以有效的减少重复SQL语句的概率,写出来的模型也更加直观 ORM的实现过程 (1)配置目标数据库,在setting.py中设置配置属性 (2)构建虚拟对象数据库,在App的model.py文件中以类的形式定义模型 (3)通过模型在目标数据库中创建对象的数据表 (4)在视图函数中使用模型来实现目标数据库的读写操作 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/166174.html原文链接:https://javaforall.cn
最近有粉丝提到是否可以把多个样本混杂到一起建立一个10X单细胞转录组库进行测序后数据分析,的确是有这样的例子,比如我前些天在Twitter看到的发表在Nephrology Dialysis Transplantation 实验设计非常简单 就是10个ESRD病人,10个正常人志愿者的血液,提取PBMC进行10X仪器的单细胞转录组数据而已。 值得注意的是,其中研究团队就做了两个10X哦,也就是说他们把 10个ESRD病人混合成为一个样品,10个正常人志愿者也混合成为一个样品。 下面的流程图写的很清楚具体细胞数量,平均检测到的基因数量是1000,每个样品检测到1万个左右的细胞数量,都符合10X仪器的技术水平。 ? 然后研究者单独看某一群细胞继续细分 因为本研究设计非常简单,就一个变量,就是10 healthy volunteers and 10 patients with ESRD ,所以主要的分析都是围绕这个变量来进行
今天我们来介绍一种更为简单的方法:一键处理 10X 下机数据。 STARSolo 分析 10X 基因组学的 v3 化学版本数据。 只需要设置: • 参考基因组(可以是服务器内置的,也可以是自己上传的) • GTF文件(可以自行上传,或使用平台提供的) • Barcode文件(来自于10X下机数据) • cDNA文件(来自于10X下机数据 “是”,否则设置为“否”) • 预期数据数(一个整数,表示预期样本中有多少个细胞) 设置完毕,点击“运行流程”就可以了。 细心的朋友可能注意到,RNA STARSolo 不需要 10X 下机的 I1(Illumina通道信息)文件。
阳了个阳~~~文章在10X单细胞(10X空间转录组)CNV分析回顾之CopyKAT详细回顾了copycat,还有分享的文章copyKAT推断单细胞转录组肿瘤细胞CNV(自动识别肿瘤normal和tumor 一些细胞类型在生理上过度表达某些基因组区域(例如浆细胞高度表达基因组相邻的免疫球蛋白基因)。如果提供多种细胞类型,则仅考虑与所有提供的细胞类型不同的区域受CNV影响。 adata.obs["cnv_status"] = "normal"adata.obs.loc[ adata.obs["cnv_leiden"].isin(["10", "13", "15", " 4、通过从每个细胞中减去每个细胞的中位数,按细胞将平滑的基因表达居中。5、执行噪声过滤。 如果数据集包含不同的细胞类型并且包括肿瘤细胞和正常细胞,则可以使用所有细胞的平均值作为参考。这是默认设置。