背景数据收集 如果要对一个未知的细胞系进行认证的话。优先的就是需要收集已知的细胞系表达数据。利用这些数据当作一个背景数据集。 数据预测 模型构建好之后,就可以进行细胞系预测了。细胞系预测的数据使用的是细胞系的表达谱芯片或者是二代测序的表达数据。我们需要提交相关的表达数据。 通过三步我们就能够预测细胞系种类了。 ? ? 其中预测的细胞系选择当中,我们可以选择类似CCLE这样900多个细胞系来一起预测。同时也可以选择单一的细胞系来进行预测。 ? ? 其次,对于每一个样本的信息也会有一个详细的结果,包括前五的可能的细胞系这样的话,如果我们的细胞系最可能的不是目标细胞系,在这里可以看看前五的有没有。毕竟结果还是有偏差的。 ? 关于数据库的时候,由于需要提供这个细胞系的表达谱的数据,所以相对来说还是有一定的门槛的。不过随着测序价格的降低,基本上应该都会有自己细胞系的测序结果的吧。
在基因表达定量后,需要将这些数据导入到 R 中,以生成用于执行 QC(质控)。下面将讨论定量数据的格式,以及如何将其导入 R,以便可以继续工作流程中的 QC 步骤。
前面我们已经确定了我们想要的簇,我们可以继续进行标记识别,这将使我们能够验证某些簇的身份并帮助推测任何未知簇的身份。
当数据加载到 Seurat 并创建初始对象时,会为计数矩阵中的每个单元组装一些基本元数据。要仔细查看此元数据,查看存储在 merge_seurat对象的 meta.data中的数据帧:
对齐相似细胞类型的细胞,这样就不会因为样本、条件、模式或批次之间的差异而在后续分析中进行聚类。
在命令行运行下面的命令,如果是root帐号,请去除sudo,其他系统参考 > Install R
现在有了高质量的细胞,可以继续工作流程。最终,希望对细胞进行聚类并识别不同的潜在细胞类型,但是在那之前需要完成几个步骤。下面的工作流程示意图中的绿色框对应于QC 后采取的步骤,共同构成了聚类工作流程。
预测癌症患者对癌症药物的反应是精准医疗的重要问题。由于花大量的时间与金钱完成大批量癌症患者与药物之间反应的实验验证是不切实际的,业界非常期待一种基于癌细胞株的大规模药物基因组学临床前预测模型的出现,然而,大多数现有研究主要基于癌细胞的基因组相似性,忽略了基因之间的关系,导致不能很好的预测细胞株的药物反应。
前面我们已经整合了高质量的细胞,现在我们想知道细胞群中存在的不同细胞类型 ,因此下面将进行细胞聚类分析。
293T/17细胞是293T细胞中共转染pBND和pZAP质粒而获得的具有G418耐受的细胞系。该细胞系仍保留高转染效率的特点。 293T/17SF细胞是在293T细胞中转入EBV基因形成的转化细胞系,该细胞系主要用于瞬时转染及蛋白表达,类似于293E细胞的作用。 该细胞系主要用于蛋白互作的筛选。 293S(suspension)细胞是被驯化成能够悬浮培养且能够耐受低钙离子培养条件的293细胞系。 该细胞系常用于同源的N-糖基化蛋白的表达。此外,该细胞系中具有四环素表达抑制基因,可用于四环素诱导的蛋白表达研究。 293SGGD细胞系是在293SG转染pcDNA3.1-zeo-STendoT质粒的细胞系,其主要用于糖基化工程研究中。
现在有了高质量的细胞,首先探索数据并确定任何不需要的变异来源。然后需要对数据进行归一化,计算方差并回归任何对数据有影响的协变量。
在现代生物制药和分子生物学研究中,稳定细胞系是实现可重复、高产蛋白表达的基础。它不仅用于抗体和疫苗的研发,还广泛应用于酶学研究、信号通路分析和基因功能验证。 一、稳定细胞系的基本原理稳定细胞系的核心是基因的基因组整合:基因组整合目标基因通过各种方法插入宿主细胞的染色体中,而不是停留在细胞质内(如瞬时转染)。 二、稳定细胞系构建的流程稳定细胞系的开发一般包括以下几个核心环节:1. 设计与载体构建目标基因优化:提高翻译效率,添加信号肽和标签。 宿主细胞匹配:根据蛋白特性选择 CHO、HEK293 或其他专用细胞系。2. 通过标准化的流程和严谨的技术控制,稳定细胞系能够为研究和产业化提供可靠、可重复、长期稳定的蛋白生产平台。
CCLE全称如下 Cancer Cell Line Encyclopedia 是由Broad Institute研究所牵头发起的一项肿瘤基因组学研究项目,收集整理了1000多个肿瘤细胞系的组学数据,包含了以下类别 array(RPPA) profiles 该数据库的网址如下 https://portals.broadinstitute.org/ccle 简单注册之后就可以查看其中的数据,最新版本共包含了1457个细胞系的相关数据 通过首页的检索按钮,可以根据基因或者细胞系进行检索,以TP53为例,示意如下 ? 检索结果包含以下几个部分 1. Distribution by Lineage 该部分用于比较基因对应的组学数据在不同细胞系间的分布,包含了以下几种 Achilles shRNA knockdown Copy Number DNA methylation
肿瘤细胞系在肿瘤发生机制的阐明,药物敏感性的检测,肿瘤标志物的发现等研究内容中发挥重要的作用。肿瘤细胞系的数据显得尤为重要。 据统计数据库中共包含40种癌型(包含未知的癌型),1457个肿瘤细胞系的数据,可以说CCLE数据库和COSMIC都是研究肿瘤细胞系的利器。 据统计CCLE数据包含了细胞系的突变、基因融合、miRNA、蛋白质表达谱、基因表达谱、甲基化谱、拷贝数、代谢谱、药物处理细胞系的IC50值和AUC值等。 CCLE提供便利的可视化工具,可通过检索获得基因在各种癌型的细胞系中表达情况,便捷传达了基因在哪些癌型细胞系高表达,哪些癌型细胞系低表达。此外,能直接下载感兴趣的基因在细胞系中的表达谱数据。 第二种:研究对象为细胞系所有的基因 若需要细胞系的全部基因,那么上面的方法就不是便捷的方法了。
稳定细胞系构建是细胞生物学、分子生物学和蛋白质工程等众多科研领域中广泛采用的一项基础技术。 所谓稳定细胞系,是指通过遗传整合外源基因的方式,使细胞在长期传代过程中持续稳定表达目标蛋白(或其它功能元件)的细胞系。 这类细胞系是进行蛋白功能研究、信号通路分析、生物药物研发及大规模表达等实验的核心工具。构建稳定细胞系的核心环节包括外源基因载体构建、有效转染、筛选与克隆扩增、表达持续性验证等步骤。1. 表达稳定性与验证稳定细胞系的构建完成后,还需对外源基因的表达进行验证,并确认其长期稳定性。 细胞培养环境与支持试剂稳定细胞系的建立与维护还依赖于良好的细胞培养环境。关键包括:基础培养基:如 DMEM、RPMI 1640 等,是维持细胞生命活动的基础。
从本文开始,将带领还未分析过单细胞(scRNA-seq)数据的读者,从如何构建环境,什么是单细胞,单细胞的完整分析流程各方面开展学习,由于内容较多,将会分章节展开,后续会整理成完整PDF教程,请持续关注。
基因过表达细胞系是分子生物学与细胞生物学研究中广泛使用的一类标准实验模型,指在宿主细胞内引入外源基因或增强内源基因表达,使目标基因在细胞中持续、高于基础水平地表达。 该类细胞系在蛋白表达分析、信号通路研究、细胞表型观察等基础研究场景中具有重要应用,是多种体外实验体系的重要组成部分。 在这些技术中,转染试剂的选择和使用对转染效率、细胞状态以及后续筛选效果具有直接影响,是过表达细胞系构建中不可忽视的技术环节。3. 为了获得可长期传代、表达一致的细胞模型,科研中通常构建稳定过表达细胞系。稳定表达的实现,通常依赖外源基因整合入细胞基因组,并通过抗生素筛选进行富集。 过表达水平的检测与验证基因过表达细胞系建立完成后,需对目标基因的表达进行系统验证。
DepMap DepMap分析了数百个癌细胞系模型,以获取各个细胞系基因组信息以及对遗传和小分子扰动的敏感性。 不过在数据分析之前,可以选择一下自己的目标细胞系。 细胞系选择 虽然在 DepMap 当中我们可以对所有的细胞系进行分析,但总是有一些自己的目标细胞系的。 在这里定义好之后,后续的分析都可以对目标细胞系进行特殊的可视化 在细胞系选择界面,如果有目标的细胞系可以直接上传自己的细胞系即可。 就可以添加一个细胞系的 MSI 特征的列。 然后通过筛选功能,就可以得到 MSI 的细胞系是哪些了。 这里由于我们之前筛选出了 MSI 的细胞系,所以可以看到具体在图形当中标注✨ 的就是 MSI 的细胞系。
现在,哪怕是全新细胞系模型的提出也需要ngs数据支持啦,比如文章:《Establishment and Characterization of a Brca1−/−**, p53**−/− Mouse Genetically engineered mouse models of cancer (GEMMC) ,就是 K14cre; Brca1F/F; p53F/F mice ,从里面经过各种复杂的实验技术养成细胞系
在获得高质量单细胞后,scRNA-seq分析工作流程的下一步是执行聚类。聚类的目标是将不同的细胞类型分成独特的细胞簇。为了进行聚类,确定了细胞间表达差异最大的基因。然后,使用这些基因来确定哪些相关基因组是造成细胞间表达差异最大的原因。