近期,Arc Institute 与NVIDIA、斯坦福大学等合作推出了震撼的Evo 2——迄今为止规模最大的生物基因组大模型( 从Evo到Evo 2:Arc Institute推出全新升级版基因组大模型 同时,Arc Virtual Cell Atlas整合了包括Tahoe-100M在内的多种数据集,目标是通过计算就绪的数据支持虚拟细胞模型的构建和生物医学研究。 与此同时,Tahoe-100M数据集包含1亿个细胞,记录了60,000种药物-细胞相互作用,是目前规模最大的单细胞数据集之一。 技术创新 AI驱动的数据挖掘:SRAgent scBaseCamp的核心技术之一是SRAgent,一个基于大语言模型的AI工具。 两者的结合为构建虚拟细胞模型、研究疾病机制和开发新疗法提供了强大的数据基础。
https://www.biorxiv.org/content/10.1101/2023.09.11.557287v1 代码地址: https://github.com/vandijklab/cell2sentence-ft 它的整理思路是: Cell2Sentence 将细胞按照基因表达量高低排序,创造一个“细胞句子”: 然后捕获句子中的基因信息特征,并使用大语言模型(如GPT)进行训练,训练后的模型可以帮助探索细胞类型以及其中的特征基因
TRUE TRUE TRUE> > dir("input/") #检查一下改名是否成功[1] "barcodes.tsv.gz" "features.tsv.gz" "matrix.mtx.gz" 2读取并且创建 AAACCCACAGGTCCCA-1' ... ]] CD3D . . 5 . . 1 . . 2 TCL1A . . . . . . . . . . . . 3 . . . . . . . . 1 1 . . . . . . .MS4A1 4 . . . . . . . . 4 . . 1 . 1 . 2 . . . . 2 4 7 5 . . . 1 .稀疏矩阵是存储0值比较多的数据用的,用“.”表示0,可以节省空间,单细胞矩阵0值比较多。 例如,如果一个细胞中有5个基因的表达量分别为1, 2, 3, 4, 5,那么该细胞的nCount_RNA值就是1+2+3+4+5 = 15。
1、 getwd() 查找工作目录2、今天大部分时间都在安装包。问题层出不穷 mac系统部署环境。
2952 细胞分裂 2 时间限制: 2 s 空间限制: 16000 KB 题目等级 : 钻石 Diamond 题目描述 Description 著名生物学家F博士发现了一种单细胞生物。 假设一开始有1只,求a分钟后有多少只单细胞蚯蚓? 对于全部数据,A<=2*10^9,Q<=10^8. 分类标签 Tags 点此展开 快速幂!!!!!!! 1 #include<iostream> 2 #include<cstdio> 3 #include<cstring> 4 #include<cmath> 5 using namespace std /n=n-1; 25 cout<<fastpow(2,n)%m; 26 return 0; 27 }
摘要 大语言模型(LLMs)正通过助力 “虚拟细胞” 的开发来变革细胞生物学 —— 虚拟细胞是能表征、预测并推理细胞状态与行为的计算系统。本研究对用于虚拟细胞建模的大语言模型进行了全面综述。 提出了一个统一的分类体系,将现有方法归为2大范式:作为 “神谕” 的大语言模型(用于直接细胞建模)和作为 “智能体” 的大语言模型(用于协调复杂科学任务)。 明确了3大核心任务 —— 细胞表征、扰动预测和基因调控推断,并综述了与之相关的模型、数据集、评估基准,以及在可扩展性、泛化性和可解释性方面的关键挑战。 引言 图1 细胞多尺度组织示意图 图2 基于人工智能的虚拟细胞建模主要任务概述 作为神谕/智能体的大语言模型:用于虚拟细胞研究 图3 大语言模型邂逅虚拟细胞的分类体系 详细总结 思维导图 核心任务定义
Para_02 为了利用和查询单细胞图谱的巨大规模和丰富性,我们需要(1)一个基础模型来表示细胞状态,该模型能够有效表示单细胞谱,适用于各种应用而无需重新训练;以及(2)一种对技术噪声具有鲁棒性的细胞相似性度量 ),并且错误地高评分的细胞数量远少于之前的基准模型(扩展数据图2e)。 Para_03 为了研究这一点,我们使用SCimilarity注释了2,507,171个体内单核细胞或巨噬细胞的细胞谱(图4a、b)搜索我们的模型。 经验上,β = 0.001 在细胞搜索任务(查询模型)中表现最佳;β = 1 在批次集成中表现最佳(扩展数据图 2c)。 根据综合得分,选择表现更好的查询任务模型作为最终模型,而不仅仅是基于较高的集成分数(扩展数据图2b,c)。 根据该研究,这个选定的集成模型比查询模型具有更多的研究混合度(NMI和研究ARI16)。
单细胞测序—2次分群 Seurat里的FindClusters函数设置的resolution数值越大,分群的数量就越多,但是当单细胞数量太多的时候,会遇到resolution再变大,分群的数量也不再增加的情况 (dplyr) load("../2.GSE218208/seu.obj.Rdata") p1 = DimPlot(seu.obj, reduction = "umap",label=T)+NoLegend ) %>% pull(gene);top10 ## [1] "JCHAIN" "IGKC" "MZB1" "PACSIN1" "WNT10A" "MAP1A" "VASH2" colnames(seu.obj),colnames(sub.cells))], seu.obj$celltype) Idents(seu.obj) = seu.obj$celltype p2 = DimPlot(seu.obj,label = T)+NoLegend() p1+p2 对比二次分群前的结果,可以看到DC被进一步划分为M1,M0两群。
单细胞测序—标准流程代码(2) — 标记基因与细胞注释书接上回,已经做好数据质控、过滤、去批次、降维聚类分群后,接下来就是进行细胞注释方面的工作step4: 看标记基因库# 原则上分辨率是需要自己肉眼判断 Tcells_markers(T细胞标记基因):这个列表包含了与T细胞相关的标记基因,T细胞是免疫系统中的一种关键细胞类型,参与适应性免疫反应。 myeloids_markers_list1 和 myeloids_markers_list2(髓系细胞标记基因列表1和2):这两个列表可能包含了不同髓系细胞亚群的标记基因,分别用于研究这些亚群在特定条件或研究中的表现 CD8_markers_list1 和 CD8_markers_list2(CD8+ T细胞标记基因列表1和2):这两个列表包含了与CD8+ T细胞相关的标记基因,可能代表不同亚群的CD8+ T细胞,研究这些细胞在免疫反应中的特性 Bcels_markers_list(B细胞标记基因列表):这个列表包含了与B细胞相关的标记基因,B细胞是免疫系统中产生抗体的细胞。
引言 本系列讲解 单细胞(scRNA-seq)中RNA“速率”分析教程 动态建模 我们采用广义动态模型来解析完整的转录动态过程。 as scv scv.logging.print_version() scv.settings.verbosity = # show errors(0), warnings(1), info(2) 该模型在基于似然的期望最大化框架中求解,通过迭代估计反应速率参数和细胞特异性潜在变量(即转录状态和细胞内潜在时间),从而学习每个基因的未剪接/剪接相轨迹。 这些参数有助于更好地理解细胞身份和表型异质性。 潜在时间 动态模型可恢复潜在的细胞过程的潜在时间。这种潜在时间代表细胞的内部时钟,仅根据转录动态,近似细胞分化过程中经历的实际时间。
本系列持续更新Seurat单细胞分析教程,欢迎关注! 标准化 从数据集中删除不需要的细胞后,下一步是数据标准化。 特征选择:识别高度可变的特征 接下来,我们计算数据集中表现出高细胞间差异的特征子集(即它们在某些细胞中高度表达,而在其他细胞中表达较低)。在下游分析中关注这些基因有助于突出单细胞数据集中的生物信号。 默认情况下Seurat每个数据集返回 2,000 个特征。这些将用于下游分析,例如 PCA。 <- LabelPoints(plot = plot1, points = top10, repel = TRUE) plot1 + plot2 缩放数据 接下来,我们应用线性变换(“缩放”),这是 细胞和特征均根据其 PCA 分数进行排序。将细胞设置为数字会在频谱两端绘制“极端”细胞,这会显着加快大型数据集的绘图速度。虽然是一种监督分析,但我们发现这是探索相关特征集的宝贵工具。
我们根据这些偏差在整个人类单细胞样本的机器学习模型管道中的出现情况进行讨论(图1和图2)。 有关如何在单一且否则非常有价值的数据库中存在多种描述的偏差,请参见框2。 另一个临床偏见的例子是在临床参数变化时触发样本收集(图2和方框2)。 例如,当COVID-19患者的病情恶化时,可能需要抽血进行检测。 一些最大的单细胞研究包含数百个样本(例如,1中的982人,2中的428人或3中的284人;有关单细胞研究及其特征的更多信息,请参见动态单细胞研究数据库37)。 Para_02 这种文库制备方法对所有细胞类型的效果并不相同(图2)。 例如,当样本中的捕获分子数量差异很大或者解离过程对某些细胞类型的影响大于其他细胞类型时,样本的细胞组成会发生变化。 来自英国COVID-19患者的外周血单核细胞(PBMC)数据中的偏见例子展示了多个偏见如何在一个本来对这个领域具有极大价值的单一数据集中根深蒂固(方框2)。
引言 本系列讲解 使用 Scanpy 分析单细胞(scRNA-seq)数据 教程[1],持续更新,欢迎关注,转发! 基于已知标记基因识别细胞簇 通常,细胞簇需要利用众所周知的标记基因来进行标注。 使用散点图,我们可以查看某个基因的表达情况,并可能将其与某个细胞簇关联起来。 这种图总结了两类信息:颜色表示每个类别(在此为每个细胞簇)内的平均表达量,而点的大小则指示该类别中表达该基因的细胞比例。 此外,在图中添加 dendrogram 也很有帮助,它能把相似的细胞簇聚集在一起。层级聚类是利用各细胞簇之间 PCA components 的相关性自动计算的。 这些信息可以用来按如下方式手动注释细胞: # create a dictionary to map cluster to annotation label cluster2annotation = {
2(triggering receptor expressed on myeloid cells-2,TREM2)的心脏常驻巨噬细胞与SICM病理过程密切相关。 让我们一起来看看这个GSE190856的脓毒症小鼠模型单细胞转录组数据吧。 : sp='human' ###### step3: harmony整合多个单细胞样品 ###### dir.create("2-harmony") getwd() setwd("2-harmony" celltype[celltype$ClusterID %in% c( 0,2,8 ),2]='Mac' celltype[celltype$ClusterID %in% c( 4 ),2 %in% c( 6 ),2]='mono' 这样的话,就跟我给大家准备的基因列表主要是针对肿瘤单细胞的第一层次降维聚类分群 , 是: immune (CD45+,PTPRC), epithelial
2.数据矩阵生成和质量控制 单细胞分析的一个关键技术进步是barcode的发展,它允许大规模并行化,同时保持成本最低。barcode被添加到在逆转录过程中的RNA分子中,允许识别单个细胞和独特的分子。 环境RNA是存在于单细胞溶液中的RNA,在包裹过程中被整合到油滴中。我们通常使用SoupX,它可以从空液滴中估计周围的RNA污染(图2)。 因此,捕捉细胞特性、分支分化过程或生物学功能的渐进、不同步变化之间的转变需要基因表达的动态模型。 MAST使用障碍模型来解释辍学。 为了从每种细胞类型调用峰,将从相同细胞类型获得的所有片段聚合以构建伪批量ATAC数据集和MACS2,分别针对每种细胞类型进行。
尽管已有一些针对单细胞RNA-seq(scRNA-seq)数据的基石模型(如Geneformer、scGPT等),但这些模型并不适用于scATAC-seq数据。 EpiFoundation通过创新的跨模态预训练方法,利用非零峰值集和基因表达信息来指导模型学习细胞表示,从而在多个下游任务中表现出色。 在模型训练过程中,EpiFoundation首先将非零峰值及其对应的染色体信息转换为输入嵌入,然后通过Transformer块生成细胞表示。最后,模型通过预测基因的二元表达来完成峰值到基因的对齐任务。 这一过程不仅提高了模型的效率,还确保了细胞表示能够准确反映表型信息。 下游任务表现 EpiFoundation在多个下游任务中表现出色,包括细胞类型注释、批次校正和基因表达预测。 随着单细胞测序技术的不断发展,EpiFoundation有望成为该领域的重要基石模型,推动单细胞多组学研究的进一步深入。
在这里,我们探讨了细胞图谱的五个当前和未来的视角:作为细胞普查、三维地图、时间发育地图、基因型到表型地图以及细胞生物学的多模式基础模型(图1)。 在实验方面,人类细胞图谱(HCA)必须收集为算法的规模和需求量身定制的数据,以便它们能够学习适当的模型。 最近,像SCimilarity22这样的方法则专注于学习在新定义的任务中表现良好的基础模型,例如在整个图谱中查询整个细胞概况。 Para_04 我们预计许多其他任务将使用基础模型来解决。 基础模型对于跨尺度整合(作为多模态地图的细胞图谱)和跨身体整合(为最终的细胞普查)也将至关重要。 例如,鼻上皮细胞图谱数据显示了对SARS-CoV-2感染更具抵抗力个体的区分特征。
基于最近图神经网络在学习分子嵌入和基于流的图像生成模型方面取得的成功,我们提出了Mol2Image:一个连接药物分子和细胞图像的流模型。 在数据集分配方面,本文选取与8.5K药物分子作用的219K张细胞显微图像作为训练集;剩下的2K个及对应图像作为测试集。 图2. Mol2Image模型框架 图中的x0代表512 x 512像素的细胞显微图像,其经过一次Haar小波变换[3]后能够分成一张256 x 256像素的均值图像x1和三张256 x 256像素差值图像x0 实验 将Mol2Image模型训练好之后,与其他及基准模型进行比较: 图5. Mol2Image模型与基准模型、真实图像的比较 对于此细胞显微图像生成任务,本文提出了几个细胞特征形态学指标:1、覆盖度(Coverage):被细胞占据的总的图像面积;2、细胞/核数量(Cell/Nuclei
作者,Evil Genius参考文章CellRank 2: unified fate mapping in multiview single-cell data(nature methods),2024 官网示例在cellrank documentation分析框架CellRank 2为使用马尔可夫链研究单细胞命运决策提供了统一的框架自动确定初始和最终状态,计算命运概率,绘制轨迹特异性基因表达趋势图表, 并识别谱系相关基因采用概率系统描述,其中每个细胞构成马尔可夫链中的一个状态,边缘表示细胞-细胞转移概率CellRank 2提供了一组基于基因表达、RNA速率、伪时间、发育潜力、实验时间点和代谢标记数据的转换概率的不同 to=https%3A%2F%2Fcellrank.readthedocs.io%2Fen%2Flatest%2Freferences.html%23id21">Reuter et al., 2019, to=https%3A%2F%2Fcellrank.readthedocs.io%2Fen%2Flatest%2Freferences.html%23id4">Reuter et al., 2022].
选择模型 fd_set结构可以把多个套接字连在一起,形成一个套接字集合 typedef struct fd_set{ u_int fd_count;//下面数组的大小 SOCKET fd_array[FD_SETSIZE struct timeval{ long tv_sec;//指示等待多少秒 long tv_usec;//指示等待多少毫秒 }timeval; 应用举例 1 初始化fdSocket集合,添加监听套接字句柄 2 当有事件发生的时候,select函数移除fRead中没有未决IO操作的句柄,然后返回 3 比较原来的fdSocket集合,与select处理过的fdRead集合,确定哪些套接字有未决IO并处理这些IO 4 回到2进行选择 1 CInitSock theSock;//初始化winsock库 2 int main() 3 { 4 USHORT nPort=4567;//此服务器监听的端口号 5 / ); 15 return 0; 16 } 17 //进入监听模式 18 ::listen(sListen,5); 19 20 //select模型处理过程