首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学(冷冻工厂)

    细胞分析:marker鉴定(11

    缺点:可能会错过那些在所有细胞中表达但在这种特定细胞类型中高度上调的细胞标记 min.pct:仅测试在两个群体中的任何一个中的最小部分细胞中检测到的基因。旨在通过不测试很少表达的基因来加速。 如果我们仔细查看标记基因列表,我们还会发现一些 T 细胞相关基因和激活标记。这些可能是激活的(细胞毒性)T细胞。有大量研究支持热休克蛋白与反应性 T 细胞在慢性炎症中诱导抗炎细胞因子的关联。 例如,我们可能对基因 TPSB2 感兴趣,它显示簇中的大部分细胞表达该基因,但其他簇中表达该基因的细胞很少。 因此簇20可能代表肥大细胞。肥大细胞是免疫系统的重要细胞,属于造血谱系。 我们将标记幼稚细胞并将剩余的簇标记为 CD4+ T 细胞。 现在获取所有这些信息,我们可以推测不同簇的细胞类型并绘制带有细胞类型标签的细胞。 + monocytes", "10" = "CD4+ T cells", "11

    1.2K40编辑于 2023-02-27
  • 来自专栏DrugOne

    大语言模型邂逅虚拟细胞

    摘要 大语言模型(LLMs)正通过助力 “虚拟细胞” 的开发来变革细胞生物学 —— 虚拟细胞是能表征、预测并推理细胞状态与行为的计算系统。本研究对用于虚拟细胞建模的大语言模型进行了全面综述。 提出了一个统一的分类体系,将现有方法归为2大范式:作为 “神谕” 的大语言模型(用于直接细胞建模)和作为 “智能体” 的大语言模型(用于协调复杂科学任务)。 明确了3大核心任务 —— 细胞表征、扰动预测和基因调控推断,并综述了与之相关的模型、数据集、评估基准,以及在可扩展性、泛化性和可解释性方面的关键挑战。 引言 图1 细胞多尺度组织示意图 图2 基于人工智能的虚拟细胞建模主要任务概述 作为神谕/智能体的大语言模型:用于虚拟细胞研究 图3 大语言模型邂逅虚拟细胞的分类体系 详细总结 思维导图 核心任务定义

    12710编辑于 2025-11-17
  • 来自专栏生信菜鸟团

    细胞图谱 | Nature 的人类细胞图谱基础模型,SCimilarity 框架

    Para_05 为了整合,我们将SCimilarity的预训练表示与Harmony23、scVI10、scanorama24和scArches11在两个肾脏数据集25,26、两个外周血单核细胞(PBMC Para_05 通过查询与纤维化相关的肌成纤维细胞查询谱,我们发现它们在不同组织中的关联,该查询谱定义为表达相应基因特征(ACTA2、CDH11、ELN、LOXL1、TNC、ASPN、COMP、CTHRC1 也就是说,负样本细胞轮廓比正样本细胞离锚点细胞更远,但差距小于阈值α。半硬负样本在三元组损失模型中经常被使用1。 三元组损失模型1。 ,如公式(11)所示: Para_02 ci 和 cj 分别是第 i 个和第 j 个细胞谱系的嵌入向量,且它们的单位长度相等,同时 i ≠ j。 SCimilarity 被与四种批量整合方法进行了比较:Harmony23(harmonypy v.0.0.9)、Scanorama24(v.1.7.4)、scVI10(v.1.1.0rc2)和scArches11

    89400编辑于 2025-03-06
  • 来自专栏ClearSeve

    C++11内存模型

    最近看了极客时间——《现代C++实战三十讲》中的内存模型与Atomic一节,感觉对C++的内存模型理解还不是很清楚,看了后面的参考文献以及看了一些好的博客,算是基本了解了,根据参考文献整合一下。 Thread-1: Thread-2: x = 100; // A std::cout << x; // B C++11 C++11的内存模型共有6种,分四类。其中一致性的减弱会伴随着性能的增强。 参考链接 【1】C++11中的内存模型上篇 – 内存模型基础 【2】C++11中的内存模型下篇 – C++11支持的几种内存模型 【3】理解 C++ 的 Memory Order 【4】如何理解 C++ 11 的六种 memory order 【5】《现代C++实战三十讲》中的内存模型与Atomic

    1K30编辑于 2022-02-11
  • 来自专栏单细胞天地

    细胞分析十八般武艺11:xCell

    往期相关 单细胞初级8讲和高级分析8讲 单细胞分析十八般武艺1:harmony 单细胞分析十八般武艺2:LIGER 单细胞分析十八般武艺3:fastMNN 单细胞分析十八般武艺4:velocyto 单细胞分析十八般武艺 5:monocle3 单细胞分析十八般武艺6:NicheNet 单细胞分析十八般武艺7:CellChat 单细胞分析十八般武艺8:Garnett 单细胞分析十八般武艺9:DoubletFinder 单细胞分析十八般武艺 xCell的工作原理是用机器学习算法提取了64种免疫细胞和基质细胞的signature,待检测bulkRNA数据先用ssGSEA算法计算样本在每个细胞类型signature的富集分数,然后用特别设计的算法将样本中各种细胞类型的富集分数转换为细胞类型分数 xCell评分用于下游分析时,可以在不同样本之间对比同一细胞类型的得分,但是不要在同一样本内比较不同细胞类型的得分。 不要把xCell用于单细胞数据的细胞类型鉴定。 关于介绍 xCell 的说明 xCell并不是一款分析单细胞数据的工具,我向大家介绍它并收录在《单细胞分析十八般武艺》专题中,是因为它与单细胞的分析密切相关。

    7K72发布于 2021-05-18
  • 来自专栏数据科学(冷冻工厂)

    R中单细胞RNA-seq分析教程 (11)

    在这些方法中,签名列表中的每个基因都被同等对待,但实际上,这些基因在区分细胞类型时的作用可能大不相同。如果忽视了这些基因重要性的差异,那么分析结果很难达到最佳效果。 所谓锚点,是指参考数据集中的一个细胞和查询数据集中的一个细胞,它们在经过降维变换后的数据中互为最近邻。这些锚点还会经过进一步筛选,要求它们在原始基因表达空间中具有一定相似性。 之后,会构建一个权重矩阵,用来定义每个查询细胞与每个锚点之间的关系。最后,通过这个权重矩阵,将锚点细胞的标签或值传递给查询细胞。 对于需要转移的分类信息(比如细胞类型标签),输出数据框中还记录了每个细胞对不同参考细胞类型的预测分数。这些分数可以理解为每个查询细胞属于不同细胞类型的估计概率。 因此,我们可以通过汇总这些分数到查询细胞簇中,来进行进一步的比较分析。

    30010编辑于 2025-03-04
  • 来自专栏数据科学(冷冻工厂)

    细胞RNA“速率”分析:模型学习

    引言 本系列讲解 单细胞(scRNA-seq)中RNA“速率”分析教程 动态建模 我们采用广义动态模型来解析完整的转录动态过程。 我们运行动态模型,以学习剪接动力学的完整转录动态。 该模型在基于似然的期望最大化框架中求解,通过迭代估计反应速率参数和细胞特异性潜在变量(即转录状态和细胞内潜在时间),从而学习每个基因的未剪接/剪接相轨迹。 这些参数有助于更好地理解细胞身份和表型异质性。 潜在时间 动态模型可恢复潜在的细胞过程的潜在时间。这种潜在时间代表细胞的内部时钟,仅根据转录动态,近似细胞分化过程中经历的实际时间。

    28210编辑于 2025-06-08
  • 来自专栏LINUX阅码场

    深入理解C11C++11内存模型

    个人认为,内存模型表达为“内存顺序模型”可能更加贴切一点。 2011年发布的C11/C++11 ISO Standard为我们带来了memory order的支持, 引用C++11里的一段描述: The memory model means that C++ code C11/C++11使用memory order来描述memory model, 而用来联系memory order的是atomic变量, atomic操作可以用load()和release()语义来描述 C11/C++11内存模型 C/C++11标准中提供了6种memory order,来描述内存模型[6]: enum memory_order { memory_order_relaxed, - Frank Birbacher [ACCU 2017] C++11中的内存模型下篇 - C++11支持的几种内存模型 memory ordering, Gavin's blog c++11 内存模型解读

    2.9K30发布于 2020-06-04
  • 来自专栏生信菜鸟团

    细胞 | 人类单细胞数据的机器学习模型中的偏差

    鉴于偏差和偏差来源的多样性,需要对机器学习模型中的相关起源和类型的偏差进行敏感性评估。 本文的观点集中在与基于人类单细胞数据训练的机器学习模型相关的偏差上。 Para_04 为了识别与单细胞ML模型相关的偏差,我们首先总结了基于机器学习的单细胞基因组学领域的最新进展,并简要说明了基于人类单细胞样本的ML模型开发流程。 在评估基于人类单细胞数据训练的ML模型的伦理性时,所有这些偏差都应被考虑在内。 因此,在单细胞研究中考虑可能影响模型性能的社会偏见——过去和现在的——是有意义的。 尽管单细胞领域的技术改进导致细胞数量呈指数增长,但2022年的一项实验中样本的中位数仅为11个37。

    38710编辑于 2025-04-18
  • 来自专栏生信技能树

    脓毒症小鼠模型细胞(中性粒细胞这么就丢了呢)

    让我们一起来看看这个GSE190856的脓毒症小鼠模型细胞转录组数据吧。 首先呢, 研究团队做单细胞转录组的时候,筛选了免疫细胞,所以降维聚类分群后主要是免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群: 主要是免疫细胞亚群 ,所以降维聚类分群后主要是免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群,但是我发现里面仍然是有少量的 上皮细胞,内皮细胞,成纤维细胞 而且可以看到,里面的 内皮细胞和成纤维细胞占比还不少哦,不过上皮细胞确实很稀少了。 内皮细胞和成纤维细胞占比还不少 另外值得一提的是文章里面的单核细胞和中性粒细胞也是泾渭分明,但是在我的复现里面没有体现出来。毕竟是数据分析的每个环节都有大量的参数是可以调整的。。。

    66510编辑于 2023-02-27
  • 来自专栏单细胞天地

    OSCA单细胞数据分析笔记11—Cell type annotation

    Ont N DE P.DE # GO:0006641 triglyceride metabolic process BP 105 11 2.799728e-10 # GO:0006639 acylglycerol metabolic process BP 135 11 4.173564e -09 # GO:0006638 neutral lipid metabolic process BP 137 11 4.876288e-09 # GO: # Cd24a 21 3.24195e-33 1.29669e-30 1.72318 # Btn1a1 24 2.16574e-13 6.12488e-11 1.26343 # Cd9 51 1.41373e-11 3.56592e-09 2.73785 # Ceacam1 52 1.66948e

    2.4K30发布于 2021-07-02
  • 来自专栏实验盒

    EpiFoundation:单细胞ATAC-seq基础模型

    尽管已有一些针对单细胞RNA-seq(scRNA-seq)数据的基石模型(如Geneformer、scGPT等),但这些模型并不适用于scATAC-seq数据。 EpiFoundation通过创新的跨模态预训练方法,利用非零峰值集和基因表达信息来指导模型学习细胞表示,从而在多个下游任务中表现出色。 在模型训练过程中,EpiFoundation首先将非零峰值及其对应的染色体信息转换为输入嵌入,然后通过Transformer块生成细胞表示。最后,模型通过预测基因的二元表达来完成峰值到基因的对齐任务。 这一过程不仅提高了模型的效率,还确保了细胞表示能够准确反映表型信息。 下游任务表现 EpiFoundation在多个下游任务中表现出色,包括细胞类型注释、批次校正和基因表达预测。 随着单细胞测序技术的不断发展,EpiFoundation有望成为该领域的重要基石模型,推动单细胞多组学研究的进一步深入。

    47110编辑于 2025-02-19
  • 来自专栏生信菜鸟团

    前瞻 | Nature | 人类细胞图谱:从细胞普查到统一的基础模型

    特别是,我们讨论了细胞图谱作为细胞普查;作为身体中跨模态和尺度的细胞三维地图;作为连接基因型原因与表型效应的地图;作为发育的四维地图;最终,作为统一所有这些方面并帮助变革医学的生物学基础模型。 在这里,我们探讨了细胞图谱的五个当前和未来的视角:作为细胞普查、三维地图、时间发育地图、基因型到表型地图以及细胞生物学的多模式基础模型(图1)。 在实验方面,人类细胞图谱(HCA)必须收集为算法的规模和需求量身定制的数据,以便它们能够学习适当的模型。 最近,像SCimilarity22这样的方法则专注于学习在新定义的任务中表现良好的基础模型,例如在整个图谱中查询整个细胞概况。 Para_04 我们预计许多其他任务将使用基础模型来解决。 基础模型对于跨尺度整合(作为多模态地图的细胞图谱)和跨身体整合(为最终的细胞普查)也将至关重要。

    45010编辑于 2025-02-06
  • 来自专栏文献分享及代码学习

    Seurat软件学习11-细胞周期内容的分析

    Seurat软件学习1-多个模型得数据进行整合:https://cloud.tencent.com/developer/article/2130078 Seurat软件学习2-scrna数据整合分析:https Seurat软件学习5-scRNA-Seq和scATAC-Seq数据整合:https://cloud.tencent.com/developer/article/2136814 Seurat软件学习6-多模型参考映射的方法 今天细胞周期的计算,在很多的物种中,细胞周期的计算是一个很有意思的现象,比如在大豆根瘤细胞中,根瘤细胞的在不同的侵染期发生的内复制的现象也是人们很关注的事情;在人类的癌症细胞中,癌症细胞的快速增殖引起了癌变的发生 对于每个基因,Seurat建立了基因表达与S和G2M细胞周期分数之间的关系。这个模型的标度残差代表了一个 "修正 "的表达矩阵,可以在下游用于降维分析。 这意味着分离非周期性细胞和周期性细胞的信号将被保留,但增殖细胞之间的细胞周期阶段差异(通常是无趣的),将从数据中回归出来。

    1.3K31编辑于 2023-03-28
  • 来自专栏机器学习炼丹之旅

    CS231n:11 生成模型

    生成模型 生成模型的定义就是给定一个训练数据,然后生成一些新的样本,保证和所给的训练集有一样的分布。 生成模型主要有以下这些应用场景: 生成逼真的艺术品图片,拥有超高的分辨率,着色等。 时间序列数据的生成模型可以用于仿真和规划(在强化学习中应用)。 训练生成模型还可以使隐式表征的推断成为有用的通用特征。 需要一提的是,可以将生成模型分成两大类,即隐式密度模型和显式密度模型,显式密度模型会显式地给出一个分布 使其和输入数据的分布相同。 而隐式密度模型则不会给出一个分布,而是训练一个模型从输入数据中采样,并直接输出样本,而不用显式地给出分布的表达式。 )获得一个高斯分布的参数 ,这其实就对应了混合高斯模型中的一个高斯分布组件,也就是说,由于 是一个连续值,所以理论上这里的混合高斯模型中存在无限个高斯组件。

    75710编辑于 2022-08-08
  • 来自专栏R语言及实用科研软件

    🤩 mLLMCelltype | 多种大语言模型助力细胞类型注释!~

    mLLMCelltype是一个迭代式多大语言模型(Multi-LLM)共识框架,专为单细胞RNA测序数据的细胞类型注释而设计。 主要特点 多LLM共识架构:汇集多种大语言模型的集体智慧,克服单一模型的局限性和偏见 结构化讨论过程:使大语言模型能够通过多轮协作讨论分享推理、评估证据并改进注释 透明的不确定性量化:提供定量指标(共识比例和香农熵 )来识别需要专家审查的模糊细胞群体 幻觉减少:跨模型讨论通过批判性评估主动抑制不准确或无支持的预测 对输入噪声的鲁棒性:通过集体错误修正,即使在标记基因列表不完美的情况下也能保持高准确性 层次注释支持: os.environ["QWEN_API_KEY"] = "your-qwen-api-key"# 通义千问模型所需 # 其他可选模型 # os.environ["DEEPSEEK_API_KEY"] HLCA 参考注释是通过一个分层框架生成的,包含 5 个粒度级别,从广泛的标签(第 1 级:免疫细胞、上皮细胞等)到精细的细胞类型(第 5 级:例如,初始 CD4 T 细胞)。

    75510编辑于 2025-04-21
  • 来自专栏智能生信

    深度学习模型在单细胞数据的分析

    作者在此篇综述文章中主要提到了深度学习模型对于单细胞测序领域具有巨大的潜力。目前已经在单细胞领域中应用了大量深度学习模型来进行数据分析,但仍有许多挑战和可能的新发展有待探索。 二、为单细胞研究开发匹配的深度学习模型 通过推广深度学习模型的设计和优化,单细胞数据的高度异质性可以在广泛的课题领域中进行分析。 最佳拟合学习模型模型的选择通常是由一个特定的目标驱动的,例如,无论是细胞聚类还是细胞分类,以及特征顺序是否重要,还是不同模式之间的拓扑关系是否重要。 由于单细胞生物学中可用的注释数据有限,因此有应用主动学习(交互式地建议新的数据标记来训练模型)来建立基于少数训练样本的模型的空间。 基于模型的深度学习有望进一步深入分析单细胞生物学。结构或拓扑感知方法,以及受物理启发和生物启发的框架将信息集成到深度学习模型中,用于其他应用;在单细胞生物学中也可能有类似的应用。

    1.6K10编辑于 2022-04-06
  • 来自专栏文献分享及代码学习

    细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析11

    细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析1:https://cloud.tencent.com/developer/article/2055573单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析 2:https://cloud.tencent.com/developer/article/2072069单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析3:https://cloud.tencent.com /developer/article/2078159单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析4:https://cloud.tencent.com/developer/article/2078348 单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析5:https://cloud.tencent.com/developer/article/2084580单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析 单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析9:https://cloud.tencent.com/developer/article/2087563单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析

    85620编辑于 2022-09-02
  • 来自专栏百味科研芝士

    泛癌分析T细胞衰竭异质性发11分+SCI

    作者使用机器学习构建用来分层TEX亚型的模型并在单细胞和免疫治疗数据集中进行验证。 流程图 结果 1. 数据集的获取和下载 从TCGA数据集中下载30种癌症类型的多组学数据,包括9564例样本。 TEXprog中CD8+ T细胞,活化CD4+记忆T细胞比例最高,M2巨噬细胞比例最低,TEXterm中促肿瘤M2巨噬细胞和肥大细胞比例最高(图3c和3d)。 对这40个基因构建PPI网络并鉴定到一个包括28个基因的子网络,包括TLL1, MYH11, P2RY8和PRKD2(图4e)。 分级TEX亚组和预测免疫治疗效果的模型 为进一步研究单细胞水平下40个TEX相关的驱动基因与TEX亚型的相关性,作者分析一个scRNA数据集,包括10518个免疫细胞共聚为17个免疫细胞簇并将这些免疫细胞簇定义为 随后,作者使用scRNA-seq数据集验证TEX亚型异质性并使用机器学习构建分层TEX亚型和预测免疫治疗反应的模型。然而,本研究还需要一定的分子实验验证本研究结果准确性。

    59610编辑于 2022-12-12
  • 来自专栏数据STUDIO

    原理+代码,总结了 11 种回归模型

    导读: 上篇总结了八种线性回归模型,介绍了主流的线性回归模型及python实操代码,而本文将继续修炼回归模型算法,并总结了一些常用的除线性回归模型之外的模型,其中包括一些单模型及集成学习器。 需要面试或者需要总体了解/复习机器学习回归模型的小伙伴可以通读下本文,理论总结加代码实操,有助于理解模型。 ---- ? 本文所用数据说明:所有模型使用数据为股市数据,与线性回归模型中的数据一样,可以做参考,此处将不重复给出。 2)) Actual Predicted Date 2017-08-09 12.83 12.63 2017-11 因为XGBoost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。而所用到的树模型则是CART回归树模型。 回归树的生成步骤如下 从根节点开始分裂。

    5.2K42发布于 2021-06-24
领券