摘要 大语言模型(LLMs)正通过助力 “虚拟细胞” 的开发来变革细胞生物学 —— 虚拟细胞是能表征、预测并推理细胞状态与行为的计算系统。本研究对用于虚拟细胞建模的大语言模型进行了全面综述。 提出了一个统一的分类体系,将现有方法归为2大范式:作为 “神谕” 的大语言模型(用于直接细胞建模)和作为 “智能体” 的大语言模型(用于协调复杂科学任务)。 明确了3大核心任务 —— 细胞表征、扰动预测和基因调控推断,并综述了与之相关的模型、数据集、评估基准,以及在可扩展性、泛化性和可解释性方面的关键挑战。 引言 图1 细胞多尺度组织示意图 图2 基于人工智能的虚拟细胞建模主要任务概述 作为神谕/智能体的大语言模型:用于虚拟细胞研究 图3 大语言模型邂逅虚拟细胞的分类体系 详细总结 思维导图 核心任务定义
Para_02 为了利用和查询单细胞图谱的巨大规模和丰富性,我们需要(1)一个基础模型来表示细胞状态,该模型能够有效表示单细胞谱,适用于各种应用而无需重新训练;以及(2)一种对技术噪声具有鲁棒性的细胞相似性度量 ., 近端;pDC, 浆细胞样树突状细胞。 Para_02 一个单一的、预训练的SCimilarity模型与来自既定方法的组织特异性模型竞争性地注释细胞类型。 Para_03 虽然高维球面空间很少用于表示单细胞谱系66,但三元组损失模型通常使用高维球面嵌入来确保模型超参数之间的一致性12。 在三元组损失训练过程中,目标是将不同类型的细胞放置得足够远。 也就是说,负样本细胞轮廓比正样本细胞离锚点细胞更远,但差距小于阈值α。半硬负样本在三元组损失模型中经常被使用1。 三元组损失模型1。 相同的SCimilarity模型用于两项评估。每种方法为每个任务训练了一个单独的模型。对于每个测试研究中的每种细胞类型,计算了F1分数。
引言 本系列讲解 单细胞(scRNA-seq)中RNA“速率”分析教程 动态建模 我们采用广义动态模型来解析完整的转录动态过程。 我们运行动态模型,以学习剪接动力学的完整转录动态。 该模型在基于似然的期望最大化框架中求解,通过迭代估计反应速率参数和细胞特异性潜在变量(即转录状态和细胞内潜在时间),从而学习每个基因的未剪接/剪接相轨迹。 这些参数有助于更好地理解细胞身份和表型异质性。 潜在时间 动态模型可恢复潜在的细胞过程的潜在时间。这种潜在时间代表细胞的内部时钟,仅根据转录动态,近似细胞分化过程中经历的实际时间。
鉴于偏差和偏差来源的多样性,需要对机器学习模型中的相关起源和类型的偏差进行敏感性评估。 本文的观点集中在与基于人类单细胞数据训练的机器学习模型相关的偏差上。 Para_04 为了识别与单细胞ML模型相关的偏差,我们首先总结了基于机器学习的单细胞基因组学领域的最新进展,并简要说明了基于人类单细胞样本的ML模型开发流程。 在评估基于人类单细胞数据训练的ML模型的伦理性时,所有这些偏差都应被考虑在内。 因此,在单细胞研究中考虑可能影响模型性能的社会偏见——过去和现在的——是有意义的。 这种策略常用于纠正单细胞数据中的细胞周期效应。 类似的方法已被提出用于建模(并纠正)昼夜节律,并且可以扩展用于使用细胞数据的代谢通量模型来纠正饮食影响。
让我们一起来看看这个GSE190856的脓毒症小鼠模型单细胞转录组数据吧。 首先呢, 研究团队做单细胞转录组的时候,筛选了免疫细胞,所以降维聚类分群后主要是免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群: 主要是免疫细胞亚群 ,所以降维聚类分群后主要是免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群,但是我发现里面仍然是有少量的 上皮细胞,内皮细胞,成纤维细胞 而且可以看到,里面的 内皮细胞和成纤维细胞占比还不少哦,不过上皮细胞确实很稀少了。 内皮细胞和成纤维细胞占比还不少 另外值得一提的是文章里面的单核细胞和中性粒细胞也是泾渭分明,但是在我的复现里面没有体现出来。毕竟是数据分析的每个环节都有大量的参数是可以调整的。。。
尽管已有一些针对单细胞RNA-seq(scRNA-seq)数据的基石模型(如Geneformer、scGPT等),但这些模型并不适用于scATAC-seq数据。 EpiFoundation通过创新的跨模态预训练方法,利用非零峰值集和基因表达信息来指导模型学习细胞表示,从而在多个下游任务中表现出色。 在模型训练过程中,EpiFoundation首先将非零峰值及其对应的染色体信息转换为输入嵌入,然后通过Transformer块生成细胞表示。最后,模型通过预测基因的二元表达来完成峰值到基因的对齐任务。 这一过程不仅提高了模型的效率,还确保了细胞表示能够准确反映表型信息。 下游任务表现 EpiFoundation在多个下游任务中表现出色,包括细胞类型注释、批次校正和基因表达预测。 随着单细胞测序技术的不断发展,EpiFoundation有望成为该领域的重要基石模型,推动单细胞多组学研究的进一步深入。
特别是,我们讨论了细胞图谱作为细胞普查;作为身体中跨模态和尺度的细胞三维地图;作为连接基因型原因与表型效应的地图;作为发育的四维地图;最终,作为统一所有这些方面并帮助变革医学的生物学基础模型。 在这里,我们探讨了细胞图谱的五个当前和未来的视角:作为细胞普查、三维地图、时间发育地图、基因型到表型地图以及细胞生物学的多模式基础模型(图1)。 在实验方面,人类细胞图谱(HCA)必须收集为算法的规模和需求量身定制的数据,以便它们能够学习适当的模型。 最近,像SCimilarity22这样的方法则专注于学习在新定义的任务中表现良好的基础模型,例如在整个图谱中查询整个细胞概况。 Para_04 我们预计许多其他任务将使用基础模型来解决。 基础模型对于跨尺度整合(作为多模态地图的细胞图谱)和跨身体整合(为最终的细胞普查)也将至关重要。
mLLMCelltype是一个迭代式多大语言模型(Multi-LLM)共识框架,专为单细胞RNA测序数据的细胞类型注释而设计。 主要特点 多LLM共识架构:汇集多种大语言模型的集体智慧,克服单一模型的局限性和偏见 结构化讨论过程:使大语言模型能够通过多轮协作讨论分享推理、评估证据并改进注释 透明的不确定性量化:提供定量指标(共识比例和香农熵 )来识别需要专家审查的模糊细胞群体 幻觉减少:跨模型讨论通过批判性评估主动抑制不准确或无支持的预测 对输入噪声的鲁棒性:通过集体错误修正,即使在标记基因列表不完美的情况下也能保持高准确性 层次注释支持: os.environ["QWEN_API_KEY"] = "your-qwen-api-key"# 通义千问模型所需 # 其他可选模型 # os.environ["DEEPSEEK_API_KEY"] HLCA 参考注释是通过一个分层框架生成的,包含 5 个粒度级别,从广泛的标签(第 1 级:免疫细胞、上皮细胞等)到精细的细胞类型(第 5 级:例如,初始 CD4 T 细胞)。
作者在此篇综述文章中主要提到了深度学习模型对于单细胞测序领域具有巨大的潜力。目前已经在单细胞领域中应用了大量深度学习模型来进行数据分析,但仍有许多挑战和可能的新发展有待探索。 二、为单细胞研究开发匹配的深度学习模型 通过推广深度学习模型的设计和优化,单细胞数据的高度异质性可以在广泛的课题领域中进行分析。 最佳拟合学习模型模型的选择通常是由一个特定的目标驱动的,例如,无论是细胞聚类还是细胞分类,以及特征顺序是否重要,还是不同模式之间的拓扑关系是否重要。 由于单细胞生物学中可用的注释数据有限,因此有应用主动学习(交互式地建议新的数据标记来训练模型)来建立基于少数训练样本的模型的空间。 基于模型的深度学习有望进一步深入分析单细胞生物学。结构或拓扑感知方法,以及受物理启发和生物启发的框架将信息集成到深度学习模型中,用于其他应用;在单细胞生物学中也可能有类似的应用。
scv.pp.filter_and_normalize(adata, min_shared_counts=30, n_top_genes=2000)scv.pp.moments(adata, n_pcs=30, n_neighbors=30)2、训练模型 plot_arrow_examplesfrom pyrovelocity.utils import mae, mae_evaluateadata = load_data(top_n=2000, min_shared_counts=30)模型训练
,进行分群与细胞类型注释。 (4)之后取tumor deg、module gene、cluster marker gene交集进行cox回归与LASSO分析,得到一个3基因的risk model; (5)再对这个模型进行验证以及预后分析 2、分析结果 2.1 scRNA数据(GSE149614)分析 按照基本的Seurat单细胞数据分析流程,进行过滤--标准化--高变基因--降维分群--细胞类类型注释。 ,计算risk score 结合TCGA的生存数据,验证模型的预后能力;并通过ICGC数据集进行再次验证。 单变量与多变量cox回归验证模型的预后性能 2.5 模型risk score分析 risk score与免疫浸润细胞比例的关系 risk score与免疫治疗预测结果(TIDE)的关系 3、小结
GPT-4 可以在单细胞 RNA 测序分析中使用标记基因信息准确注释细胞类型。 更多模型支持:我们在 Openai 之外提供了更多大型模型供用户选择,例如 Qwen(通义千问)、Kimi,而且还通过参数 base_url 提供了更多模型支持。 、每细胞归一化、对数转换、提取高度可变基因、计算细胞聚类等。 请选择您需要使用的模型:支持的模型列表。 请选择您需要使用的模型:支持的模型列表。
单细胞实验设计与验证 在AKI发病后第1、2、4、7、11和14天对具有临床意义的AKI单侧缺血再灌注小鼠模型进行了单细胞RNA测序(scRNA-seq)。 使用临床相关的UIR模型进行scRNA-seq,4周龄雄性小鼠处于多个AKI阶段 单细胞转录组数据情况 数据链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi 第一层次降维聚类 使用非监督聚类方法鉴定肾细胞群 UMAP图显示了所产生的细胞团,包括足细胞、近端和远端小管、Henle环、插管和主要集合管、内皮细胞、周细胞、巨噬细胞、T细胞和基质/周细胞 分析发现, UIR处理的肾脏也升高了CD24a,编码一种细胞表面唾液酸糖蛋白,在肾脏形成过程中未诱导的后肾间充质中表达。人类CD24也与肾脏发育和肾小管上皮细胞分化有关。 文章小结 建立临床相关的单侧肾缺血/再灌注(UIR)模型中AKI反应的单细胞转录变化的综合图谱,该模型可导致严重的肾损伤而无显著死亡率。 利用特定的基因和蛋白质表达分析重现观察到的转录变化。
多项式概率主题模型确定了11种已知细胞类型的50个细胞主题 作者使用贝叶斯深度学习方法来估计包含50个潜在维度的155913个细胞的嵌入主题模型。 然而,癌细胞具有不同的混合主题比例,这表明该模型识别了癌细胞的许多不同主题(图1E)。 作者还尝试了10个、25个和50个不同数量的细胞主题,并决定使用具有50个细胞主题的主题模型,因为该模型对主要细胞类型,尤其是癌细胞,显示出了分离良好的不同簇。 图1 概率主题模型为细胞类型确定细胞主题 在2500万个细胞对中发现7个稳定的TME特异性相互作用特征 作者用来自155913个细胞的LR基因表达数据来构建24790167个细胞对,并估计具有25个潜在维度的嵌入交互主题模型 SPRUCE建立在概率主题模型和变分自动编码器模型的基础上,具体地证明了癌症异质性的一部分可以在癌症细胞的不同和特定环境的相互作用中理解。
近期,Arc Institute 与NVIDIA、斯坦福大学等合作推出了震撼的Evo 2——迄今为止规模最大的生物基因组大模型( 从Evo到Evo 2:Arc Institute推出全新升级版基因组大模型 同时,Arc Virtual Cell Atlas整合了包括Tahoe-100M在内的多种数据集,目标是通过计算就绪的数据支持虚拟细胞模型的构建和生物医学研究。 与此同时,Tahoe-100M数据集包含1亿个细胞,记录了60,000种药物-细胞相互作用,是目前规模最大的单细胞数据集之一。 技术创新 AI驱动的数据挖掘:SRAgent scBaseCamp的核心技术之一是SRAgent,一个基于大语言模型的AI工具。 两者的结合为构建虚拟细胞模型、研究疾病机制和开发新疗法提供了强大的数据基础。
PDX 模型全称为病人来源肿瘤异种移植(Patient-derived tumor xenograft)模型,是将来源于患者的肿瘤组织或原代细胞植入免疫缺陷小鼠体内形成的移植瘤模型。 处理方法 问一下人工智能 pdx模型的单细胞转录组如何分析上游定量,参考基因怎么选择呢? 在PDX模型的单细胞转录组分析中,上游定量和参考基因选择是关键步骤,以下是相关分析方法和建议: 1. 单细胞转录组上游定量分析 对于PDX模型的单细胞转录组数据,由于涉及人类和小鼠两种物种的基因表达,需要特别处理以区分人源和鼠源细胞,并准确定量基因表达。 参考基因的选择 参考基因的选择对于单细胞转录组分析至关重要,尤其是在PDX模型中,需要同时考虑人类和小鼠的基因。 通过以上方法,可以有效处理PDX模型的单细胞转录组数据,准确区分人源和鼠源细胞,并进行可靠的基因表达定量分析。
其中,聚类模型与铁死亡激活评分(FeAS)模型的构建如图1A所示。 图 1 02 FeAS模型具有很强的预后预测能力 为了提高聚类模型的预后预测能力的准确性,本研究通过FeAS模型进一步构建了cluster1和cluster2之间的DEG。 与以往基于铁死亡相关基因的公共预后模型相比,FeAS 模型在预测患者生存结果方面的准确度更高。此外,FeAS 模型的 AUC 值也高于聚类模型和胶质瘤病理分级(图 1H)。 图 3 05 免疫相关通路选择性激活高FeAS胶质母细胞瘤 在聚类模型中,基于 GSEA 分析的 GO 和 KEGG 富集分析表明,免疫细胞相关通路,如 IL6 相关通路、巨噬细胞相关通路、JAKSTAT 总之,FeAS 模型可以评估胶质母细胞瘤的侵袭性,调节与免疫细胞的串扰并为化疗提供建议。本研究的缺点在于,得到的药物相关的结论目前尚没有临床证明,仍需后续的分析以支持研究结果。
导语 细胞焦亡在胰腺癌中的作用仍然未知。 背景介绍 今天小编为大家带来一篇细胞焦亡构建预后模型+实验验证发表高分文章的例子。 03 构建预后模型 使用单变量Cox回归分析筛选出9个P<0.05的细胞焦亡相关基因,包括5个潜在风险基因(IL18,GSDMC,NLRP2,CASP8和CASP4)和4个潜在的保护基因(PLCG1,GPX4 为了确认该细胞焦亡模型是否可以预测PAAD患者的预后,作者根据中位风险评分的阈值将170名患者分为高危组(n = 85)和低风险组(n = 85)(图4A)。 综上,模型中与细胞焦亡相关的基因特征有助于预测PAAD预后。 04 验证预后模型 为了验证预后模型的准确性,从GEO获得了186名胰腺癌患者,并使用训练集中的相同公式计算了风险评分。 图8 小编总结 本文开篇是常规的构建肿瘤预后模型文章,作者首先鉴定了细胞焦亡相关基因中在胰腺癌和正常样本中差异表达的基因,并使用cox回归和lasso回归筛选出显著的风险基因和保护基因,基于此构建了风险模型
背景介绍 今天,小编给大家带来了在乳腺癌中基于免疫细胞特征构建预后模型分析的相关思路,这篇文章于2020年12月发表在《Briefings in Bioinformatics》期刊上,影响因子8.99, 接下来,通过最小λ值的LASSO Cox回归模型(Fig.1A、B),选择23个免疫细胞特征的NESs在训练数据集中建立IRRS模型。 测试队列用于估计该模型分类新数据的性能。测试组的总体准确性和AUC分别为83.94%和0.947(Fig.6D)。 Fig.6 小编总结 作者通过利用多个公共数据库的乳腺癌数据集,通过Lasso Cox模型确定了23个与预后相关的免疫细胞特征,在训练数据集中确定打分系统,并构建了模型,在测试数据中证实模型的预后价值 结果表明,这个风险评分模型可以作为一个强大的预后生物标志物,为新的化疗和免疫治疗的发展提供治疗效益,并可能有助于为乳腺癌患者提供临床决策。
给定具有已知标签的样本(单细胞或RNAseq)参考数据集,它将基于与参考数据的相似性标记测试数据集中的新细胞。 对所有标签重复此操作,然后将得分最高的标签作为此细胞的注释。 选择性执行微调 ? 为了提高速度,我们只选取100个细胞来标记细胞类型。 输出的每一行都包含单个细胞的预测结果。 与默认检测算法相比,此方法更慢,但更适合单细胞数据。