00:02
嗯,好了,接下来就上我们的第24课啊,关于这个文献解读以及。今天的依据领域划分细胞亚群的一些内容,其实看文献啊。看文献就和大家什么。啊,当然了,前面有个人说我看文献就相相当于病了要多喝热水啊一样的,我们做科研啊,做这个相关的研究啊,都要看大量的文献啊,而且看文献大家可能一开始看的都不知道大家和我的经历是不是一样啊,一开始看文献觉得比较吃力,比较吃力,等大家耐着性子看上个篇5~10天之后啊就会发现。好像这些文章什么。套路都差不多,思路都差不多,如果是在,当然指的是同一个方向啊,比如单细胞,比如说空间,看得多了之后就会发现啊,他们原来都是这么做,只是生物学意义赋予不同的生物学意义,至于分析方法都是一样的啊。
01:07
首先从看文献的角度来看,一开始啊,大家如果接触的不多,想要找一些专门的单细胞空间文献的话,一般从这个时辰官网找就可以了,大家进入这个时辰官网往下拉有一个。哎,搜索发表。这里面有一些大量的文章,大家可以看一看。三篇呢发了7200多篇,五篇呢发了1000不到500篇,不到1500。冰冻这篇呢,发表了700多篇。FIP发了130多篇,其实大家从这个数量上来看,从这个收录的数量上来看,也能明显看出来单细胞的文章啊。他自己就是时成收录,大家可以看看收录,他其实收录的。啊,不算是最全的,他只是截止到2024年12月份,今年的他还没开始收录,也就是说截止到今年1月份吧。
02:09
单细胞已经就是10层的单细胞,已经发表了7200+1500是8700,将近9000篇,对吧,如果再加上什么AT的数据啊,绝对要突破9000。实际情况是什么呢?实际情况是,单细胞的文章。现在已经超过。将近2万了,超过2万了。首先石城自己发了很多的文章,BD呢?BD单细胞也发了很多的文章。再加上国内的一些平台,比如新歌源啦,寻音啦,各种各样的平台啊,像新歌源的平台发表了有几百篇。寻的话也有几篇,等等等等,把这所有都加起来,发表的文章已经相当多了。然后我们要结合自己的实际情况进行一定的搜索,你像大多数人用这个实成的发表的就可以了,因为单细胞无论哪个平台啊。
03:05
分析方法和内容几乎都是一样的,不存在之间,呃,不存在之间相互有什么技术壁垒啦,或者有什么大家大家处理不了的情况,一般都不会,都是一个矩阵,细胞基因矩阵,一般比如说搜索单细胞呢,就把这个点上。大家搜索一些好的文章,比如研究肿瘤就研究尸体瘤是吧,点上它,然后只有杂志期刊顶刊的呢,大家可以看一看对吧。然后按照时间排序搜一搜就可以了,找一些相关的看一看就可以了。比如研究这个。啊,物种是人的。研究什么器官的,人族实体瘤的,看一看就可以了,当然其中有一些方法论,大家可以借助一下看一看。当然这是最普通的做法,而且大家看的时候啊,前几篇可能看的要稍微的用心一点。任何细节都。
04:02
不要放过,好吧。呃,等到大家看到多了之后呢,可能看这些文章啊,发现都是千篇一律啊,只是这个如果说大家的分析方法都比较高之后,就是大家的分析能力都比较高之后,限制大家发表文章的就是什么。样本课题设计,就这些内容啊。当然了,这是一个比较陈旧的一个搜索方法,正常来讲我们一般要去这个官网来搜索。三大期刊官网nature science对吧,其中空间单细胞空间转录组啊。在nature上发表的文章是最多的。啊,也可能因为大家都知道和NC的有关,和NC收集的有关,对吧。比如说我们在这个地方收集空间转录组。这个地方date有这个out。对吧,一般呢会搜索,大家如果看的少的话,一般搜索近一个月的。
05:03
把这一个月的文献都拿出来看看,你像这种是方法论,那communication对吧,像这种的文章就是NG。就会怎么样。影响因子就稍微大一点。等等等等,有一些其他的文章,大家把这些文章多看一看,收录收录其中的分析思路,基本上做到心里有数。就可以了,你像这种文章就是我前几天分享的关于那个。呃,空间着陆组呢?揭示了这个肿瘤进展了,主要是在什么。非洲裔美国人和。White American就是白种人,他们之间的一个差异就是通过这种方式搜索出来的。然后搜索出来呢,大家可以简单看看,有的呢。啊,需要这个什么。可能是不能不能直接下载的是吧。不能直接下载的,但是先看看它的图片是不是符合我们的预期要求。
06:00
啊,如果是的话,一般如果不能下载的话,大家可以用这个方式啊。科研通。用这种科研通的方式,基本上大家发布一下都可以啊,都可以。啊,这个账号不在这个电脑上啊,大家用这个科研东直接发布就可以啊,一般很快就会有人应答啊,这是nature,当然nature的研究相对比较宽泛。山药呢?三二的话,大家可以看看它的杂志分了很多类很多类,一般主,一般我们一搜都是主刊,主刊的一个cell啊,它通常是研究细胞。机制的。就是涉涉及到分子层面了。知道吧,涉及到分子层面研究细胞机制啊,通常我们搜这个杂志啊,一般在杂志会挑选一下,比如说开sce会用的多一点。
07:04
他会在主界面给大家列出来最近上线的一些文章,看到吧。还有一些综述,大家在这儿可以搜索一下啊,基本上能搜到一些。大家想要的一些文章啊,当然了。也要搜索自己和自己课题相关的啊,只有在课题相关的没有的地方可以看看其他的。当然这里面就有一些经常经典的文章了,比如说这个什么单细胞沙布亚型这个吧,对吧。等等等等。太高估我了,我误以为我能发CNS,不是说大家能发CNS啊,因为大家借鉴的文章,要能借鉴的文章稍微高一点啊,高一点。把大家做科研应该听过一句话。你借鉴的文章如果是30分儿。你能发20分。
08:00
如果你借鉴的文章是20分,那你只能发10分,如果你借鉴的是10分儿怎么样?那你只能827了,知道吧,大家看是没有问题的,不是说大家一定有能力发到这么高,只是说大家借鉴的时候尽量引用一些这些高分的文章。对大家来讲啊,不仅能开阔视野,至少在研究自己的数据时候用一些先进的方法,至少自己发的也不差。知道吧。这是搜索文章的一个方面,如果大家呃对科研感兴趣,不知道大家是不是对科研感兴趣啊,啊,你像我一样的话,每天早上去了公司,或者说就像今天一样,礼拜天的话,也会翻开电脑看一看,浏览一下。把那些电脑收集,呃,把那些文章收集收集。把这些文章收集收集啊,所以说看文章啊,尽量看一些高分的,多借鉴一些高分的,自己也不会太低啊,就像这位同学说的,诶,借鉴10分,最后发了6分,对你借鉴10分,你就就就能发个五六分。
09:08
啊,你借鉴顶开你也就能发个啊NG啊等等,你肯定是达不到同水准的知道吧。好了,接下来我们来研究研究这篇文章啊,为什么要研究这篇文章呢?前面给大家提到过,呃,研究依据微环境来分析这个亚群。这个在去年的讲课的时候就提到过这个问题,就是说空间转录组而言,它的基因表达值是很少的,尤其是小拍脑可能只有几百个探子,对吧?啊,大排al呢,像这种Z了cosmic了,也就是五千六千,真正的每个细胞检测出来的五六百都算多的了。在这种基因比较相对比较什么缺少的情况下,如果再分亚群,基因特征是远远不足的,而且稀疏性是相当高的。所以在去年也就是24年6月份7月份的时候,就已经就是说国内的一些。
10:06
呃可呃,无论这个从业人员啊,就意识到了要依据微环境来区分亚群。为什么要依据微环境来区分亚型呢?这个就相当于什么呢?大家做单细胞来区分亚军是什么依据这个?依据这个什么基因表达值是吧,把它再细分一下。单细胞为什么要分亚群?其实如果单细胞和空间主学放在一起看的话,就会发现单细胞分亚群和。空间转入组依据微环境分亚群的效果呀,很接近。就是说单细胞T细胞分了5个亚群,把这5个亚群投到空间上,联合的方式还是怎样的方式?会发现5个亚群一般会处在。不同的位置。而且经常会发生这种排斥反应,就是说有我没他的这种现象。明白吧,所以在这种思路的一个借鉴下。
11:03
慢慢的呀,空间就养成了这样一种依据微空间微环境区分亚区的一种。分析思路,只不过这个思路啊。因为空间文章还是比较少啊,大家做那个什么cos me跟Z啊,包括这些收录的文章还是相对少的,你看这个Z的收录了几篇啊。应缘为。这个石城自己才收录了52篇。这52篇呢,还有相当一部分是方法论。就是说怎么分析这个数据的,你像这种的都是方法论,对吧,我们把这方法论排除。再把这个呃,可能是方法比较的呀,还有一些只写只带了一些原位做一个基因验证的这些文章排除,把这个文章剩下呀,其实就没有几篇了。文章相当的少。
12:00
再加上cosmic呢,Cosmic的文章其实也不多啊,也不多。嗯,稍等一下啊,康米个文章也不多,整个的原位的一个文章啊,相当下来就相就是说可借鉴的文章数量是相对比较少的啊,比较少。所以说在如果想要分析的像王林华这篇文章一样,就这篇文章一样。那么的精细化和。那么的精细化和什么标准化,还有一些大量的数据供他验证啊。这在大多数的科研,科研的这个角度来看,几乎是做不到的。嗯。
13:01
你像这个地方我收入了多少?啊,文章我都发给大家了,像这个地方这个里面有个。大概十几二十篇吧,当然还有包括cos的,并不单纯是cosmic,你像这种cosmic等等,我看看文献啊。单纯的标记cosmic的也就那么几篇。而且通常cosmic和其他的原来平台连用。所以说大家可借鉴的文章是相对比较少的,但是同时也要说啊,少代表了什么?少代表了有机会啊,说明大家自己要做竞争者是。相对比较少的,比单细胞比那个普通的空间要少很多了,如果大家再再去现在去卷单细胞。竞争者。可是。相当的多啊,相当的多。好了,我们来研究研究这篇文献,这篇文章发到了,看CE啊,第一作者叫刘云,刘云鹤。
14:01
嗯,通讯是王丽华。呃,王林华呢,他是一个MD editdison, 不知道大家对这个单位有没有熟悉啊?MD editdison干嘛的?它是一个肿瘤数据库的一个。工作单位。如果大家。如果大家,呃,如果大家对这个。如果大家对这个特点就是基因组有所层面的话,这个库这个我知道这个这个这个地方就是MD啊。是一个非常关键的也是必备的一个库,经常要买它的一些数据来用在自己国内的一个。怎么样国内的一个科研,包括这个特件出报告等情况的。啊,他们有很多的一个内容,大家有空可以看看,它主要是集中在癌症研究。这是MD。
15:00
不过大家看到这个网站,不知道大家有没有一些感触啊,感触啊,大家可以看到有什么family啦,Patientas啦,就是病人和及其家属啦啊,发展啦,图谱啦,捐献者啦,志愿者啦等等等等,大家发现这样一个环境会造就什么?造就这个MDI的生涯,拥有大量的什么临床数据,包括基因组,包括单细胞,包括空间,而且这些数据大家觉得靠大家自己能申请到吗?就是大家去申请,你觉得MD这个单位,或者联系这位王林华王教授,他会给大家吗。啊,肯定不会啊,肯定不会,大家能接触到的数据啊,都是已经非常公开化,别人已经挖了七八成了,就剩那么一点点,大家随便玩一玩,就那种数据给大家公开了,绝大部分数据是。不公开的啊,不公开的,人家这个自己辛辛苦苦测了序,做分析各种数据,他们存在自己的数据中心了。
16:04
呃,等到自己人研究的时候,发文章的时候,才会把它给。拿出来。明白吧?首先呢,我们来看一下这篇文章,大家看文章的时候啊,不知道大家看文章的顺序是什么,首先呢,看题目对吧。保守的空间亚型和细胞的淋浴。就是说癌症相关的成纤维细胞保守的空间下层和细胞领域揭示了,呃,被这个单细胞空间多组学给揭示了,对吧,也就是说要从空间角度来分析这个保守的。嗯,和保守的这个称纤维的空间亚型,以及它的领域为环境啊,这是它的题目。首先来看这张图,大家可以看看,首先这个图呢,这是什么?S1CFS2CF,这实际上来是S是什么。
17:00
Sub type这第一个字母。S对吧,S1S2说明分了亚型,分了亚型之后呢,会发现它周围的什么。微环境是有不同的。对吧,微环境是有不同的,同时呢,基因表达也会存在一定的差异,而且微环境不同呢,大家看1234,呃,每个微环境呢,周围的领域它是T,它是监制离池,它是随性逆齿,它是什么。啊,Lat ls等等,每个微环境内部都有一些变化啊,然后呢,大家可以看看他画了部分的亚群,当然这是AI图,它作为一个展示,大家看看它用了哪些技术呢?首先是cosmic。1K样本量有8个。对吧,COSMIC1K。1K啊,是在之前的数据中经常用,因为那个时候还没有推出。大探针啊,这个呢,Moscope是什么?
18:02
也是一个原位平台,也是一个原位平台,还有什么。Z5K z name5K啊,目前我收集到的文章啊,加上这个王丽华这篇怎么样。一共发我找到的啊,一共发了三四篇的样子。就是用Z5K的发了三四篇的样子。前面提到过,Z无愧可以进行一定程度的DIY,但是目前还没发现谁来使用DIY啊,包括文章里面我也没发现谁设计,当然文章还比较少,可能这5K就足够的用了,最后是什么?V字母。微字母呢,它是低精度的对吧,多细胞平台它用了6个6个样本,这个地方呢,大家可以看看ST。用了这四种技术,大概有个二三十个样本对吧。KD imc和。Comet, 这是空间蛋白组平台。
19:00
像kdex它有70个样本,Imc呢?Mac就多了r Mac它一般抗体比较少,只标记主要细胞类型,所以样本比较多。使用mett也有6个。这个就文章啊,就会体现出一点什么呢,为什么既要做空间转录组,又要做什么空间蛋白组呢。其实就是涉及到刚开始上课给大家提出的那个问题,就是转录组和蛋白组是不是一一对应的。事实证明是不是的啊。呃,其实在单细胞已经有这种意识了,比如说单细胞的T细胞,它的马克是CD3DCD3ECD3D,对吧,它就是公认的,那我从蛋白组能不能用这四个能能不能用这三个基因来标记T细胞呢?不能啊,不能,不能用这3个基因的蛋白来标记T细胞。明白吧,相互之间是不不存在绝对的。
20:00
嗯,线性关系的知道吧,其中呢,之前在做研发啊,在做研发的时候研发那个BDBD不是有蛋白抗体标记嘛,当时就做过这个验证,转录组水平和蛋白水平的相关性不足0.3。就是转录水平高,不一定蛋白水平就高啊。而且大家今年年初啊,或者去年年底的时候应该啊,如果经常看文章的话,应该知道空间蛋白组被2024年誉为什么。年度技术空间转录组呢,是在2020年和2022年被誉为年度技术,单细胞是2018年被誉为年度技术,说明这个技术啊,一直在不停的往前迭代和发展。啊,这些亮点呢,大家看看就行了啊,了解了解是吧,Integrate啊,整合了多种空间数据技术了,4个单独的啊空间CAF亚型啊等等,这都是一些简单的介绍。
21:02
真正来到我们正文部分啊,大家就需要稍微详细点看啊,详细点看。首先呢,它是有一个summary,像像这种cance是有一个summary对吧。肿瘤相关的成纤维细胞是一个multi face cell, 呃,细胞类型对吧,E sense of for sping the, 呃,Tumor micro environments and influence therapy response, 这是一个简单的对它一个基因,呃,这种细胞类型的一个介绍,对吧?呃,空间组织的特性呢?在这个呢,空间组织的特性和相互作用。这种细胞类型啊,为人复杂的这个空间组织呢,提供了一个严格的什么内饰图谱,在肿瘤生物学和免疫组免疫生物学对吧?这是对他的一个简单介绍,大家将来自己写文章啊,基本上也是这样啊,也是这样,如果发的高一点的话,发到这个NC啊什么的,首先这个summary。一开始就要切中要害,知道吧,比如说大家写文章一开始就要告诉他,呃,大家研究了半天,发现某一个靶点是什么,比如说研究了某个基因,比如说A基因一开始叫什么?
22:12
Gna是哪个通路的,哪个什么调节哪个因子的,呃,重要的参与者之一,而他的一些第二句话就开始写什么。前人的研究,比如说它的一个研究是什么,这个基因经过敲除,或者前人经过敲除后,或者前人研究过后之后发现这个基因有怎样的一些生物学功能,就在这儿洗知道吧。在这个研究中,大家注意这个思路啊,大家注意这个思路不要光看,大家自己发文章也要,呃看着这个思路写,思路都是大差不差的啊,过程都是一样的。啊,在研究中通过整合多少多少细胞,多少多少样本是吧?啊发现了什么的单独的CF亚琴,这个是什么,这句话是什么。简短的研究过程大家也一样的,大家也可以写,在过程中我议论单细胞数据发现了哪个亚群可能导致了这个疾病的进展,对吧,或者说哪个基因的啊高表达导致了这个基因的进展等等等等都可以啊,大家要学习他这个写文章的思路啊,写文章的思路,你大家看这个人是谁,刘云鹤对吧,他也是中国人,但是他在美国那边,他的思路思维啊,和美国思维就很接近了,我们一般借鉴他的一个写作方,写作行为方式,一般在这个写作方面是不会有多大的问题的啊。
23:30
啊,然后注意他们,呃,展现了单独的什么空间组织模式,呃,Neighbor, 呃,临近的细胞组成是吧,相互之间的这个in text network and转录的图谱,对吧?这是对它的一个研究的发现的一个简单介绍,哎,他们的风度和组成呢,在多种组织之间是不同的,塑造了这个t me, 就是肿瘤微环境的特征,例如水平分布和这个状态分布,肿瘤浸润免疫细胞等等等等,各种各样的这个研究丰富了我们的研究,丰富了什么什么这个地方就是什么。
24:06
创新点,大家最后一句话,要把这些创新点写上,就是我研究了这个,加深了对这什么的认识,加深了这么,或者说这个研究推动了什么什么的进展,等等等等啊这样的话,简短的一个summer就。完成了。大家不知道大家听完这个之后有没有理解,可能当然有人发表过文章,知道,嗯,他已经会了,但是如果大家还没发表文章,可以结结合他的一个形式来学一写,就是前面2一两句话呀,介绍大家的那个核心发现,中间一段呢,就是说大家通过什么什么发现了什么什么东西,最后呢。呃,研究的意义加深了什么什么理解跟什么什么什么对吧,整个的一个简短的就可以了。然后就是简单的一个introduction了,就是大家的第一部分introduction introduction呢通常和大家的什么。
25:00
研究背景有关。你像这个王丽华的研究成纤维细胞对吧,他一开始也是知道,而成纤维细胞是什么什么的关键,呃,他的介绍相对于上面要更加的详细,包括单独的什么细胞类型都有引用文献是吧。一篇一般一篇十几二十分甚至更高的文章,要引用多少篇文献?接近100篇。你看他引用了多少,一百一百一十六篇吧,这是啊。看到没?就是也是阅读了大量的文章,汇总出了这样一个内容,大家发文章也是要看的多一点,当然我发给大家的文章大概有个三四百篇吧,加起来啊,二三年,二四年,二五年有个三四百篇,大家将来自己写文章可能也要读的稍微多一点啊,读的稍微多一点,才能绘制出一个核心思路,这样的话写的这个语句啊。丰富度就很不一样了啊,然后呢,对他一个简单介绍,前一天发现了各种各样的CF亚群,对吧,然后通过单细胞数据和这个imc就是流失分选,呃,流失这个。
26:11
嗯,三麦卖这个。呃,功能上呢,CF亚群体现了怎样的一个功能等等等等,其实这第一段其实就是对什么。第一段就是对CF的一个。前人研究的一个介绍就是这个基因的功能亚群,包括前人用到了什么技术等等等等,啊第二个呢,就开始写这个前人研究的什么缺点了。第一段首先肯定了前人研究的进展,第二段该干嘛?诶,我要推动这个发展,我肯定要有一些新的技术,对吧?这个时候就开始了,由于这个技术的进展或者显著性的提升,对吧?关键的知识GAP remain, 就是有一些东西还是前任研究无法突破的,接下来呢,就开始介绍这些缺点,包括什么CF,有什么空间环境啊,或者是缺少空间信息啊等等等等,把一些缺点列一列,对吧。
27:07
然后呢?下一步干嘛提解决方案?提解决方案,为了研究这个缺点,单细胞技术是不行了,是吧?单细胞空间的平台空间,单细胞级别的空间技术呢,需要运用上来了,所以它运用了什么IC啦,Com啦,什么KX啦,显著的提高了这个多种什么免疫,免疫荧光啊,各种各样的抗体panel等等,提高了这个精度和分析环境,包括用这个空间转螺族呢,用了ST,用了什么moscope Co cosmic等等等等,提供了什么前所未有的机会来研究什么。空间微环境大家可以,大家可以学学这个段落的一个逻辑啊,第一步介绍第2步是什么有缺点,第三步现在技术发展了,借助这些技术可以实现我前人我没有研究的问题,或者说弥补这些缺点,最后一步。
28:05
哎,我们做了什么,对吧,我们用了这些平台提供了多少多少做一个简单的介绍,最后呢,是吧,发现了一些非常简单的,或者说非常,呃,比较前人没有发现的一些内容。明白吗?4段路。是段落啊。大家别看我说的很简单,大家自己写写就知道有多难了啊。第一步介绍,你能把第一步介绍写好就很不容易了,你看第一步介绍引用了多少篇?光这个引号打的引号就30多年是吧,说明大家看的文献还是多一点,等到来到介绍他的缺点的时候,文章引用的就少了,因为介绍他的缺点,前人肯定不说他的缺点的,都说自己好。缺点就会稍微引用的少一点,第三段落引用各种技术的时候怎么样?呃,大多数都是一些技术文了,对吧,第4段呢,第4段几乎不引用,就是因为你发现了新的东西了,你没法引用了,是别人要引用你了。
29:05
明白吧,这就是introduction的一个写法,大家可以,当然了,如果大家是高手。啊,已经那个融会贯通了,可以不照,照这个格式,如果大家还处于一个刚发文章或者没发过文章的时候,用这种方式写啊,啊当然会更好一点啊,更好一点,老外能接受度更高一点,更高一点。首先第一个识别四种空间亚性啊,这个它因为研究的比较深入了,所以第一部分啊,它直接上来就研究这个CF亚群去了。真正的第一部分,尤其是普通文章的第一部分是什么?图谱。什么?呃,第一部分通常为什么是图谱呢?就是大家单细胞分析了之后,做了细胞定义,做了差异复集来验证单细胞的图谱是怎样,或者空间的图谱是怎样的,介绍一下定义了多少种细胞类型等等等等啊,不过他这个呢,一开始就分析到亚型去了。
30:05
哎,为了探索空间一致性啊,CF的in interact, 利用这个公开的这个单细胞数据集,从这个cosmic and.还是那个问题,大家觉得这个公开的数据局大家能大家能找到吗?比较难啊,比较难,除非你像这个王丽华一样,在mddison这样这种大课题可以啊,那个数据是共享的,然后总结了多少多少个样本是吧,各种各样的组织,其实第一部分它在分析亚型之后,其实常见的第一部分就是要对这个单细胞进行图谱,或者说空间进行图谱分析呢,它也是有介绍的。知道吧,只不过他预论公开的数据,呃,各种疾病进行简单的介绍,对吧?用了什么细胞分割方法,其实这些都是对技术方法和数据的。简单介绍对吧。然后呢,形成了多少个细胞,多少个亚型等等等等,做了细胞定义,这上部分其实就是细胞。
31:04
痛苦。细胞图谱。然后呢?根据批次矫正无监督聚类啊,这么多个CF in cosmic的数据,因为他关注CF,所以第二段直接都过渡到这儿来了,其实正常来讲,我们是一下过渡不到这个地方来的,而是把所有的亚型都分析一遍,最后发现可能某种细胞的亚型有。有什么有致病作用,或者跟生物学课题相关,慢慢的过渡,他这个一下就过渡过来了,说明前人的研究啊,或者说他MDS那个,呃,这个单位啊,前面的研究已经很多了。明白吧,这里面稍微跳跃了一下啊,当然我们一般是跳不了的,依然要拿到数据慢慢分析,知道吧。这是图谱,这个是聚集到主细胞亚群亚型,主细胞类型的亚群对吧。啊,然后呢,大家可以看看矫正获不了这么多,那个还有什么其他的,是各种各样的细胞类型吗?这是细胞定义的内容啊,然后细胞组成呢,用80μm的半径,就是说目标细胞类型,80μm范围提供了这个ne vact, 其实就是领域细胞组成,然后用非负矩阵分解,呃,得到一个核心的细胞特征,最后呢,把它分成了四个亚群,大家别看它这写的简简单单,大家能把这一段就是这部分摸索出来。
32:31
就是说给了大家这个数据,并且给大家定义好了。当然他写出来了,如果说这个地方没有写出来。就到这儿。有了数据,有了多少种细胞类型,并且告诉你细胞徒步是怎样的。这个半径首先摸索,摸索就得一周。明白吧,这个半径摸索摸索就得一周,它可能也摸索了很久,摸索出来80μm,可能这个范围是比较合适的,然后呢,产生这个向量用了NMF进行一个特征提取,首先要不要用NMF呢?
33:13
他肯定也有两套方案,就是说作者肯定也准备了两套方案,一套用NMF,另一套不用,最后发现NMF,进一步提取特征才能。聚类更加好一点,最后呢,识别这个亚群。啊,大家知道,当然它识别了4种是吧。它识别了4种,但是大家自己做的时候,如果不知道是多种的话,你能聚集到这4种啊,估计得需要一个月的时间。我做过这种课题啊,这种课题呃,我都做过啊,也和客户合作过,其实真正想要就是这一段话,想要实现。如果一开始细胞类型都没有定义的话,光实现这一这一小段话起码得1~2个月。
34:04
就是各种摸索里面的参数,当然他写了,他写了80,别看挺简单,等他摸索这个80啊,就需要很长时间,还有这种NMF怎么用,为什么大家待会儿看方法就知道了,它有K=5,那K等于等于几呢?你可能2到十几都要摸索一下,整个都摸索出来,这段话就需要。1~2个月了。很麻烦啊,很麻烦。啊,当然了,你摸索出来就发就好,知道吧,就是摸索的过程比较痛苦啊,比较痛苦,哎,接下来就是对它环境的一个简单介绍了,每个CF亚型表现了单独的空间模式,细胞领域组成和互作网络,比如说什么什么在肺癌中他他他咋了,他他他咋了,对吧?各种各样的一个简单介绍,就是对亚型的一个介绍了,这就容易了,就是这一步是。最难的。后面的至于说你已经分析出来了,就这4种研究,研究领域,环境组成等等,就比较的简单了,大家看看这个a two.
35:06
空间数据啊,做完了这个细胞定义和图谱对吧,空间图步肯定是要做的,然后聚焦到这个CAF,就是成纤维细胞和它的neighbors,然后呢,每个呈现为细胞的neighbors细胞组成大概是怎样一个状态,最后呢。用NMF进行特征提取,并且聚类,聚类当然了,大家都知道了,用的SP的聚类us=0.1,提取到了主要特征,最后发现了四个不同的CF亚群以及它的微环境组成。这就是一些什么高精度空间的图了,每个亚军都给他空间展示一遍,看看在哪在哪在哪。看到没?一些核心的地方啊,大家可以看看,它也是圈一些核心区域,给大家看一看。看到没圈一些核心的区域,这个靠这个大家要注意啊,这个B图的中间,这个图它是cos米圈的。
36:05
也就是说cosmic完全是可以全选特定区域进行制的,呃,国内呢,可能这方面技术还差一点,就是说让公司圈,他可能圈不出来,这个需要大家费一点心思自己圈,或者说和公司合作,你看圈出来之后画这这些图对吧。每种亚型是怎样?C图呢,就是领域的展示了,对吧,S1F主要是肿瘤细胞占比居多,22呢间质细胞占比居多,S3呢,水系S4T和B对吧,主要的特征就都拿到了,然后它的一个基因表达特征对不对,地图是基因表达特征。每个亚群它的基因表达当中会有不同,大家可以看到啊,他用cosmic才1000的pan脑都能分析出基因表达的不同。那5000或者6000呢,大家可能会发现一些更多有意思的东西啊。啊,然后呢,就是一些荧光展示了,对吧,大家觉得做这个图A图。
37:05
需要多久?啊,我说的做就是说呃,分析好之后,把这些图都分析出来,然后排版整理完成。就是排成好好的这样的,大家觉得需要多久?大家能一周搞定,都算是高手了啊。第一部分呢,就是细胞图谱加亚型鉴定,对吧,如果说大家是普通的文章,就是细胞图谱。第二部分是亚型鉴定。对吧,第三部分和它的第二部分就很一样了,它的亚群的转录图谱或者细胞的相互作用和和它的领域,大家的第三部分通常和它的第二部分就一样了,然后呢,对它的这个CF亚群呢,就开始研究各种研究了,对吧,研究它的通讯和周围的通讯啦。啊,周围的细胞类型组成了,当然这个地方大家看到没。
38:05
大家要注意啊,看到没,这是什么?细胞亚型。细胞亚型啊。大家如果想定义的话,真的非常。细胞亚性啊,尤其是这个1K啊5K啊,定义细胞亚型可是相当的难,它都定义出来了。对吧,研究它的周围的微环境的通讯啊,研究它的细胞组成啊,细胞组成定位到亚型啊,以及这些空间展示这些kex就是蛋白平台的一些展示图啊,嗯,I'MC和kdex大家可以。嗯,等到我们最后3节课会聊一聊关于空间蛋白组的内容啊,大家看看呗,差异表达基因啦,空间展示了对吧,Neighbors, 对对不对,第二部分,第三部分和第二部分就一样了。呃,基本上就是在对每种CF进行什么它的领域通讯领域展示,包括这种S3S,它的通讯效果,转录因子特征等等等等,这一部分就相对容易一点了。
39:04
明白吧?就是研究它的一个特征,包括通讯啊,特征通讯等等等。这部分相对。如果说前面做的很好,这部分相对容易一点,但是这部分严重依赖于上一部分,如果上一部分分析出来,第二部分是出不来的。知道吧,只有上一部分研究的比较准确,第二部分就出来的比较简单了,尤其是像这种空间平台,大家如果分好亚群之后。在空间上看,比如说这种空间上看,确实他们每个亚群都分布在空间的不同位置,对吧,这个时候呢,怎么样研究空间临近通讯,研究它的细胞组成,就能明显的发生出它们有着什么很大的差异啊,很大的差异,这一部分就相对容易做一点了。然后第三部分免疫细胞状态和空间分布模式。这个地方大家也稍微也要呃提起大家的注意,研究肿瘤,肿瘤微环境和免疫微环境,这是逃不开的。
40:06
这个要形成一个常识,知道吧,就是研究肿瘤必然要研究肿瘤微环境,也要研究免疫微环境,这个地方呢,它就把这个。免疫细胞分成了各种各样的亚类,对吧,就和这个图2B一样,各种各样的亚类。啊,一旦研究到免疫啊,大家是绝对逃不开的,说是只用T细胞或者B细胞,这是绝对不行的,无论从单细胞还是呃空间的角度来看,定义大类一般是不可以的,必须要精确到小类,但是空间转录组定义小类啊,目前还是很麻烦的一件事啊。然后呢,对它免疫微环境进行了很多的一个研究,对吧,这些动态的变化证明了CF啊,起到了一个关键的单独的作用,在调控这个什么,这种细胞类型分布和功能在它的领域中,对吧。
41:00
这还是处于淋浴的一个范畴。就是这部分免疫微环境。第4部分呢。第4部分也是怎么说呢,也是大家通常做不到的,或者说需要一些外部数据来验证的。跨癌种的一个,就是说前面的研究要用一些其他的数据进行验证。明白吧,就像大家的分析结果一样,大家也经常分析了单细胞分析的结果,要做一些生存验证,或者怎样的拿一些公开的数据来验证自己的结果,证明自己的结果怎么样是准确的,这一部分其实也是一样的道理。为了分析这个高斯米克数据,它启用了多个癌种。然后引用了相同的方式CNNMF分析它的空间特征,最后呢,发现它们都有相同的什么啊。四个CF亚群,然后又是差异基因,又是其他,其实就是把前面的分析用各种各样的不同的癌种和其他的平台进行了一个。
42:09
验证。验证出来之后呢,发现哦,好像是具有。共性的包括用了低精度平台,就是我们的RCTD计算机V字MST这种平台,它也用了这种平台进行验证,发现了分析共定位。发现了各种4种亚群,看到没供定位分析各种亚群它也包括了什么?刚才提到的那4种类型的领域细胞组成的一些特征。比如说它和。肿瘤细胞在一起,它和免疫细胞在一起也是相同的特征。进行了。相当程度的验证这一步呢?为什么要做到这个程度呢?其实就是为了验证大家的研究具有共性。就是研究出来之后,别人也可以用。而不是说就你能用。
43:00
明白吗?就是把自己的研究经过从其他的数据和平台里面套一遍。泡一遍。把它给。拿出来。然后再往下呢,影响T细胞浸润和空间分布,Cosmic office data set等等等等,这个用到了不同的空间平台,因为它的数据量很丰富,看到没各种各样空间平台都有,所以它的研究内容就会非常的多,随便挖掘挖掘都可以拿到很很多的一个结果啊。然后这部分呢,也是一样的啊,很透。哎,免疫微环境往上套,明白吧,肿瘤微环境和免疫微环境两部分都要往上做一遍。就像这个图一样啊,低精度一座是吧,虽然它啊病理学把它稍微的注视了一下啊,但是呢,整体来言,你看也是分成了10个亚群,周围也是存在着相同的领域特征,其实就是验证了一遍,说明我这个研究怎么样。
44:00
其他空间转录组的研究也是类似的。啊,这部分也是一样的啊,套就行了,哎,免疫为环境的一个核心组成,往往往上套。明白吧,它的免疫微环境和前面的研究是一样的。一样的,这两部分别看只是套了一遍。比方只是往上套了一遍,但却证明了怎么。他的研究是对的,自证是对的。大家如果能做到公开数据验证自己的研究结果是对的,那大家发的文章绝对不会低于20分。啊,最后呢,用了人5K进行验证,对吧,用了一些新的平台。那么利用利用这个发现这个Z弹真不配。组织和PB tels啊,人品不可发各种各样的,对吧。大家可以稍微看看这个内容啊。你看啊。
45:00
Zip平台被排除,呃,被排除从这个发现的这个队列中,由于它的限制,比如低基因覆盖度小于400根,因缺少细胞什么膜染色。来准确的这个吗?分割并且是不可利用的细胞数,呃,肿瘤数据集或者研究的except,新的发展的人5K呢,嗯,才是他家想要的那个结果,这个地方其实强调了前面什么。低碳者的一些缺点。对吧,缺少了细胞膜,分割了细胞了什么?呃,基因太少了,限制了,对吧,他用了人内母母可以进行一个。验证。啊,验证之后呢,其实分析方法也是相同的,寻找灵异细胞的组成NMF进行分解,最后发现了相同的细胞亚群,发现了细胞亚群之后怎么样?分析它的一个空间基因表达特征领域的什么通讯等等等等,这些发现了证明了什么?
46:04
这些4个4种亚型怎么样是可以完全可以复现的,并且某一个亚型和肿瘤细胞经常待在一起,可能发挥潜在的什么?促进作用或者免疫逃逸作用,最终呢,它聚集到一个通讯培训敌队。当然这个通讯会透底,对啊,基本上大家如果能做到这个程度,就是把这个4种的4种的这个亚型和。这个已经明确知道了,它和肿瘤细胞是临近的是吧?分析它的配售敌对其实就没有几对。很容易聚集到这个8点。很容易聚集到这个靶点啊。这种法典。然后呢,利用空间CF亚群和组织模式,用这个控又是一个平台的验证,其实也是另一种新的平台的验证啊,你看这种平台展示的图和前面就不一样了。啊,又验证了一遍,证明是。对的,然后是code和imc平台也是一样的啊,用一些设计好的探针进行验证,验证它的结果确实是反复验证,确实是准确的。
47:11
明白了吧?这就是这篇文章的精髓,其实最核心就是第一部分,第一部分分析好了,后面直接复现就相对简单一点了,而且复现的又多。可靠性越高。明白吧?大家要学习,学习他这个写法和思路,当然大家可能在自己写文章的时候怎么样。可能分析不了这么多,但是正常来讲,第一步细胞图谱,第二步细胞亚型,第三步什么。呃,领域分析和细胞互助这4部分是肯定要做到的,第5部分用一些公开的数据库验证自己的分析结果,这一部分如果能做到,是对大家文章的一个什么。啊,可以叫升华。如果是自己,只有自己的数据能验证自己的结果,可能存在偏差。如果大家能像这篇文章一样引用一些,倒不用像他引用的这么多吧,至少引用一个或者两个外部的数据验证自己的分析发现。
48:10
大家的文章水平、质量会有一个极大的提升。这就是这篇文章了啊,基本上也是验证对吧,各种验证是这种细胞类型,各种验证证明是对的。最后呢,有一些分析方法大家要注意啊,分析方法的虽然他写出来了,但是很多参数是他摸索了很久摸索好的,大家自己来一遍的时候又要摸索。明白吧,比如说这个大家可以看QC是吧,大家的平均基因才多点儿,Cos每个的每个细胞的基因才多点,这么少是吧?那如何记住这么少的基因进行准确的定义,他定义完了,他可没说是怎么定义的,当年自己定义的时候可麻烦了。对吧,也用了THREAD13什么各种各样的分析等等等等PCA是吧。RPC进行一个什么矫正,然后呢?
49:03
Find neighbors find都是一样的,对吧?大家自己分析的时候,别看他写的很简单,自己来的时候我会发现,怎么老是复现不出他那样完美的结果呢?就是因为他很多大量的内部工作呀。大家是接触不到的。需要大家自己趟着水慢慢往前走了啊,然后P次脚就用了RPCA是吧,然后scale data等等等等,这是一些基础分析了,和大家遇到的那个基本都是真正的。然后V字母呢,V字母做了一点指控。小于500个基因的不要了。对吧,然后。接卷机呢,用了这个ID。还有阿斯。阿斯是一种。就是说填补空缺值的一种单细胞空间联合的方式,然后用RCTD进行解卷积,对吧,拿到了这个空间亚型。
50:00
用了猫体模式,当然了,低精度一般都是猫模式。其中最核心的就是在识别这个CF亚群上,第一个就是它这个距离。目前没有一个,没有一个文章确定这个距离。他还是中案对。安大还行吧?首先这个距离啊,大家可能就要设个梯度设一下了,比如五十,八十,一百,150,两百等等等,他这个肯定是摸索了好几个,最后发现这个最合理对吧,然后呢,覆盖了大概周围100个领域的细胞是吧,然后进行往下走,进行NMF分解,然后K=5,这个K=5肯定也是摸索过的。他可能2到十几都来了一遍,最后发现5是比较好的,随后呢进行聚类,聚类0.1这个肯定也是摸索过的。凭空想一下,让他0.1聚烈,这是不可能的啊,也是摸索过的。
51:01
就是这些参数,大家都要设个梯度来摸索。啊,聚类产生的各种各样的东西啊,等等等等,往下分析细胞类型对吧,领域的细胞类型就拿到了,前面的参数分析好之后啊,后面的一些分析结果自然而然就有了,就不需要过多的。去思考了,包括一些其他的,像什么蛋白平台也是一样的。哎呀,微M平台也是一样的,对吧,RCDT这样之后微字平台提供这个参数是最。难受的就是这个0.37,它摸索可能需要很长的时间啊,可能需要很长的时间,可能它集卷机之后,比如CF几卷机之后,对吧。他有从大到小排了个序,这个0.37刚好是什么中位置。刚好是从大到小,它最中间的0.37,他取了这个值也有可能啊,但是他这个0.37到底是怎么来的。文章并没有说。
52:00
只是简单提到了一个0.37,也就是说他肯定经过了很多的摸索。明白了。所以说大家别看方法,他写的很简单,大家自己做的时候啊,处处都是坑。啊,然后呢,进行一些其他的验证等等等等都一样了,空间通过T细胞了,对吧,细胞通讯呢,用了什么。它限制了这个分析在领域的范围之内,对吧,为了避免over lap.呃,交界区域用这个领域,呃,交界区域它排除了什么。交界区域给它排除了,然后用了cell和cell分DB,只分析领域的细胞类型、亚类,同时还用了什么。I talk I talk, 这个是张泽明的喜欢用的一个。呃,通讯的一个软件啊,当然了,你多软件连用,肯定准确度会高一点啊,量化细胞距离,注视细胞肿瘤区域啊,用了这个空间距离的方式,欧式距离等等等等啊。
53:00
这就是整篇文章的一个内容吧。大家如果感兴趣,感兴趣啊,并且有条件的话,可以把他的数据给他要出来,我是没有能力要出来啊,大家如果感兴趣可以要出来把这些复现一遍。如果真正能。我先不要求大家什么摸索参数之类的,大家就照着它的参数,能完全把这个结果给复现出来,大家在分析自己的数据的时候,绝对就没有任何问题。明白吧?好了啊,这就是整篇文章的一个简单的逻辑以及内容,大家要学习他的写法,学习他的思路,以及大家在这种写法思路要运用到自己的文章之中,知道吧,多看一些文章,总结一些,汇总一些经验,妈妈,大家看的多了,自己写文章什么的都知道该怎么写。走啊,虽然它它有一定的格式,内部当然灵活性比较高,但是大的框架是这个样子。就行了。好吧,我们休息5分钟,休息5分钟,我们来看看用这个微环境区分细胞亚型的一个代码,好吧,休息5分钟。
56:36
所以大家啊,如果想发一篇好的文章啊。从拿到数据,当然这个数据还得很全面一点,如果是呃,缺胳膊短腿的这种数据啊,还很难发,如果说在数据完善的情况下,发一篇好文章啊。就像发到这个20分。或者这种的。2年都是快的。
57:03
从拿到数据到。把这个文章的整体思路都给他构建出来,2年的时间都是快的啊快的,这还是说大家自己能力还不差,至少写文章能力,英文能力等等等等各方面综合能力都达标的情况下。2年都是快的。不过从这个文章的整个布局布局来看,大家也慢慢能感觉到为什么公司现在不愿意接触这些个性化分析了,因为这些参数的摸索和探讨啊。真的非常的耗精力,非常的耗精力啊。非常的耗精力,每一个参数的摸索精力都需要很大的一个消耗。分析起来就非常的。啊,过程是又既很慢又很什么煎熬,如果大家对科研不感兴趣,那真的就是用煎熬来形容了啊。
58:08
好了,接下来我们看看我们的这个代码啊,当然这个代码这个参数啊,借用了王林华的一个参数啊。借用了王林华的他这个文章的一些参数,大家自己分析自己数据的时候,这些参数绝对都是要调整的。你像这个一万个细胞。5000多个基因5的一个。数据集对吧。呃,领域分析呢,用SM map已经分析过了,在这个地方。Special on count, 对吧?这是B的对应的细胞类型,在OBS下面。对吧。这些数据都拿到之后呢,第一步要干什么?
59:02
重新依据细胞的领域矩阵构建一个新的对象。这个时候呢,就会拿到一个新的data塔对象了,这个data塔对象是依据细胞灵异矩阵来进行。然后它的一个基因名称呢,就是细胞类性。细胞类型对吧。4种细胞类型。接下来就要大家。对某一细胞类型区再分群的时候,要把这个细胞类型给它。选择出来了。这里面我以这种细胞类型为例,因为大家要依据微环境来区分这个细胞亚型是吧?首先要把这个细胞亚型的领域数据给它。拿出来,我以这个细胞类型为例啊,大家可能自己有自己的细胞类型,可能也像王丽华一样,分一分这个CF啦,分一分这个或者说T细胞了句式啦都可以啊。
60:06
然后呢?领域矩阵数据对齐啊对齐,把一些其他细胞类型的8UG的也。去掉。接下来就是什么?哎,王丽华说了啊。王丽华这篇文章给告诉大家了,拿到浴矩阵之后,当然邻浴举这个多少微米,大家要自己摸索一下,我这里是以200啊,100μM200的参数作为这个示例,大家自己多找,必须要摸索,然后呢就是NMF分解,NMF分解呢这个地方。怎么样?K值是多少呢?呃,文章给大家的事例是5,我这里面也用5作为事例,到底是多少?不知道,大家得自己看了啊,就像这个一样,也是5这里我这个地方用5肯定是不对的。
61:06
明白吧,因为特征才4,你用5岂不是乱套了对吧?但是如果大家的细胞类型定义的应该不像我这么少。应该定义了有十几种,就像B细胞,T细胞定义了至少有个。肯定超过5种。你像这种的。肯定超过5种,我这抽了数据了,当然不对,大家定义的时候肯定是超过5种的,也就是说基因特征是要大于5的,这个时候用K=5进一步提取核心特征才是有意义的,如果说大家的特征只有4,只有3,你用5其实是增加了。噪音知道吧,所以要注意这个参数的设置好吧。这边NMF分析好之后呢,把它提到这个里面来。
62:01
哎,我们看看这个特征,大家可以看一下它的。啊,这么多细胞,5个NMF特征,5个NMF特征,然后接下来干嘛。进来干嘛?NMF聚类。哎,首先neighbors是吧,识别临近淋浴。然后进行类聚类。Legin July文章给大家的参数是多少?0.1对吧,刚才看过了。大家自己分析的时候,这个参数也要适当的校准一下。是不是嘛。Us=0.1啊,内等距离这里面是Python实线的,也是一样的道理啊。
63:00
稍等一下啊,1万个细胞跑起来都费劲啊,要是整个几十万以上Python可能都需要消耗很大的资源啊。大家自己分析的时候可要考虑好,考虑好自己的实际情况好吧?然后呢,这个revolution大家要注意啊,Revolution.呃,可能大家也发现这个缺点了,反正他只写他这个参数是多少,他从来不会说他摸索的过程对吧,告诉你我用了0.1,他不可能一眼看了一眼,就是说这个该用0.1,这个是绝对不可能的,肯定是摸索了很多,大家也是一样的,要进行大量的摸索啊,摸索知道吧,像这个里面我随便用个数来给大家作为示例啊,作为示例。嗯,那的对吧。最后呢,画一个派图,派图就是派图就是什么。就是文章的这种图。
64:06
文章的类似于这种图,哎,每个细胞领域组成的一个派图。我们来画一画。累,等了汗出。啊,当然我这个领域抽的不对啊,大家可以看到希波类型好是抽的很很差。抽的很差,我随意抽的不太对劲。
65:02
并不太对劲啊,这些细胞类型怎么同一种的?啊,当然了,抽这个数据大家可以看看,抽了1万个细胞,我抽这种细胞类型居然抽完了还剩9600,说明其他细胞类型就两三百个,这个抽的肯定是不对啊,我随意抽的是不对,画出来的图呢,就是这种派图知道吧。肯定是不对啊,肯定是不对,大家自己分析的时候要合理的抽取数据,明白吧,像我这种随意抽呢,只是做一个演示画出来呢,就是这种效果了,大家可以依据什么,我这是依据治疗,大家可以依据什么?刚才的剧烈。结果化。别说group by等于什么。
66:00
这个我随便画一下表情数据,用亚型试试啊。Glo one呢?用这个。刚刚新生成的依据领域区分好的细胞亚群。这个。然后呢,我们再画一个图看看。这个灵活性比较高啊,大家依据自己的实际情况进行。调整看看这个图怎么样?也是一样啊,抽的比较不多,不过有了其他细胞类型了,对吧?啊,因为抽的数据不太合理啊,所以说不太对,你像这种的有其他细胞类型,但是也占比很低啊,很低,不对啊,抽的数据不太合理,我瞎抽的啊,大家自己也不可以瞎抽啊。
67:03
最后呢,把整个结果给它。呃,保存出来就行了,包括一些细胞领域差异分析啊,都都保存出来就可以了,这个时候就可以拿到每个。哎呀,每个亚群大的一个显著负极的一个分数了,等等等等,就和上节课讲到那个负极的领域,负极的细胞类型是一样的,明白吧,他怎么知道这个周围腹肌了,肿瘤细胞周围腹极了。什么样的细胞呢,也和这个计算差异是一样的道理啊,一样的道理,当然用这这种图呢,就可以画出那种文章中的饼图啊,当然数据要好一点啊,数据好一点,不要像我一样这种。随意的抽发,这个绝对是不行啊,这个绝对是不行。好了,大家可以把这个内容啊放到自己的数据中,多多验证啊,多多验证,这就是我们这节课的内容了啊,同学们。
我来说两句