20220519_提取基因5'UTR与3'UTR与启动子序列的方法 01 打开UCSC genome browser网站 https://genome.ucsc.edu/cgi-bin/hgTables hgsid=1135464701_QYf1uabeAtCA3YKHZtBchoMoGhf0&clade=mammal&org=Mouse&db=mm10&hgta_group=genes&hgta_track =refSeqComposite&hgta_table=ncbiRefSeq&hgta_regionType=genome&position=chr12%3A56%2C694%2C976-56%2C714% 2C605&hgta_outputType=sequence&hgta_outFileName=test 1.png 2.png 02 5'UTR序列下载 3.png 03 3'UTR序列下载
知识积累在mRNA中,3 '非翻译区(3 ' UTR)位于编码序列终止密码子和poly(A)尾部之间。 然而,转录组范围内的APA研究报道,不到20%的3'UTR变化调节mRNA或蛋白质的丰度。这表明mRNA丰度和3'UTR长度可能是独立的基因输出。 尽管差异基因表达分析已被广泛应用,但由于一些技术障碍,对3'UTR长度的研究仍然非常有限。基于3 '标签的单细胞RNA测序(scRNA-seq)方案可用于量化差异的3 ' UTR。 基因和3'UTR表达定量原始scRNAseq数据中开发基因和3'UTR异构体定量的计算pipeline。 scUTRquant和scUTRboot提供了从scRNA-seq数据进行3'UTR分析的工作流程基因表达数据 + 3'UTR异构体计数将基因分为单UTR基因和多UTR基因在所有被归类为多UTR基因的基因中
$7,$1,$2,$3,$6}'| head #可以更改输出的顺序与cut是不一样的(cut必须按顺序提出) + chr1 ENSEMBL UTR . + chr1 ENSEMBL UTR . + chr1 {print "find UTR"} /UTR/{print $3,$4,$5} END{print "end"} '| less -SN 图片 awk 内置变量 pic3 图片 awk 'BEGIN{ OFS=":"} {print $3,$4,$5}' Mar402 09:43:19 ~ $ cat Data/example.gtf | awk '{print $3,$4,$5}' | head # | awk 'BEGIN{OFS=":"} {print $3,$4,$5}' | head #用:将其分开 两个都是 UTR:1737:2090 exon:1737:2090 transcript: | awk '{print NR,$3":"$4"-"$5}' | head #加上NR列出当前是第几行 1 UTR:1737-2090 2 exon:1737-2090 3 transcript:1737
shiphome.zip 192.168.11.151 目标端 kafka 2.12 OGG_BigData_Linux_x64_12.3.2.1.1.zip 192.168.11.165/4/3 =PLAINTEXT://localhost:9092 zookeeper.connect=localhost:2181 zookeeper.properties clientPort=2181 3. ":null,"UTR_PM_ID":1,"UTR_CARDNO_ENCRYPT":"GuL6A5JN4rwAaHb8fPSAMdhxRA9CL1RVIjWwP81YujHEvXuz0YnmBssWqslPmsAgsuPeKBdQarDb4B23oy0C6wMJYner9LKmRVbuNfuGummiWnRmHAM9Dn2dJKcujEPProxYeBWUMbEhk9V54Q018cML1bcf3fvJjKL 18 18:16:48.360706000","TR_TRANRETURNCODE":"10000","TR_TRANINFO":"Transaction Approved","TR_WHETHER_3D -18 18:16:48.360706000',TR_TRANRETURNCODE = '10000',TR_TRANINFO = 'Transaction Approved',TR_WHETHER_3D
lower:] 2)截取一行的前几个字符 cut cut -c-num $ cat readme.txt | cut -c-4 #截取每行的前4个字符 Welc This Have Plea (htt 3) UTR feature chr1 ENSEMBL UTR 1737 2090 gene_id "ENSG00000184731"; transcript_i end 3)内置参数 图片 $ cat example.gtf | awk 'BEGIN{OFS=":"} {print $3,$4,$5}' |head -5 UTR:1737:2090 exon:1737:2090 transcript:1737:4275 gene:1737:4275 exon:1873:1920 判断条件) {yes} else {no}' } 循环语句: awk ‘{ for {循环条件} {循环语句} }' $ less -S Data/example.gtf | awk '{ if($3=
研究团队收集了来自人类、小鼠、大鼠、鸡和斑马鱼的214,349个5′ UTR序列,以及来自人类肌肉组织、PC3前列腺癌细胞系和HEK 293T细胞系的三个独立数据集。 在后续实验中,使用了由 DSL、SS 和 MFE 增强的基线 UTR-LM,称为 UTR-LM MRL。 UTR-LM模型准确预测了mRNA的这两项指标,这两个因素对于理解蛋白质生产至关重要。如图3所示,模型在这些任务上优于现有的所有基准方法。 图3. 这些数据集的来源包括人体肌肉组织(Muscle)、PC3 和 HEK293T 细胞系。a-c,UTR-LM超参数在TE任务上的消融研究。在后续实验中,使用DSL和MFE增强的UTR-LM作为最终模型。 e,湿实验结果:前 20 个设计的5' UTR与基准5' UTR NCA-7d-5'UTR和HBB-5'UTR相比的相对TE。
哺乳动物中的miRNA通过结合转录本序列的3’UTR区,从而发挥转录后调控作用。 UTR区域,该数据库通过一种名为3P-seq的测序技术,确定转录本对应的3’UTR区,该技术原理示意如下 ? 并且结合该技术的分析结果和NCBI中已有的3’UTR注释,提供一个综合的3’UTR区序列。 当然是不一致的,官方的说法是两个数据库中确定3’UTR区域的方式不同,对于TargetScanhuman中的human而言,直接用human的3’UTR区域,对于mouse而言,通过同源序列比对的方式确定其 3’UTR区域,用human的3’UTR序列和mouse的转录本比对,比对上的区域则为mouse的3’UTR区。
后来发现这个属于3‘UTR的一个东西,但是对于3'UTR吧,了解的也不是很深,然后又查了查3'UTR,所以就正常有了那么一个关于3'UTR的综述了。 ? 系列贴汇总 由于 APA 事件其实就是 3'UTR 区 PolyA 尾的选择性形成,进而导致了一个基因虽然编码的蛋白相同,但是其 3'UTR 区域的长度不同。 现在研究也发现不同长度的3'UTR可以发挥不同的功能。所以对于3‘UTR的功能的总结,就有了下面这个综述翻译的帖子。3'UTR是做什么的? 在综述当中提到 3'UTR 当中具有一个富AU元件,这个对于3'UTR的功能有很大的影响,所以就有了关于富AU元件查找的数据库介绍:AU富集区域查找 另外在综述当中,提到了两个来查询物种 PolyA 具体位点的查询的数据库 以及另外有人用TC3A的数据和TCGA SNP的数据来进行交叉分析的数据库:SNP2APA。
01 Targetscan靶向预测思想 TargetScan 基于序列互补原则,找到比对到靶 3'UTR 的保守性 8 mer、7 mer 或 6 mer 位点(seed match 序列),进一步根据热力学稳定性筛选得到 -8nt 与靶基因完全配对);8 mer (miRNA 2-8nt 与靶基因完 全配对,而且 UTR 上与miRNA 1nt 互补配对的位置是 A)。 主要包括如下几部分: Site Type 8 mer > 7 mer-m8 > 7 mer-1a; 3' pairing contribution:除了与 miRNA seed 区域配对,与 miRNA12 start:UTR 起始位置 UTR end:UTR 终止位置(起始和终止的长度大概是 6nt) 3' pairing contribution : 3' 端配对的贡献值 local AU contribution region :UTR 区域的序列 UTR-miRNA pairing :miRNA 与 UTR 互补配对的区域 mature miRNA sequence :成熟的 miRNA 序列 miRNA
# 即,出现在5 ' utr中的位点的值从0到1,其中0和1分别代表5 ' utr的5 '和3 '末端。 # 类似地,CDS中的位点值从1到2,3 ' utr值从2到3。 , na.rm = T) utr3.SF <- median(m6a.dist$utr3_size, na.rm = T)/median(m6a.dist$cds_size, na.rm = T) # $rel_location >= 2, ] # rescale 5'UTR and 3'UTR utr5.m6a.dist$rel_location <- rescale(utr5.m6a.dist$ rel_location, to = c(1-utr5.SF, 1), from = c(0,1)) utr3.m6a.dist$rel_location <- rescale(utr3.m6a.dist m6a_plot.sh 可视化图中:0 to 1:表示5'UTR;1 to 2:表示CDS;2 to 3:表示3'UTR 贴上两个样本的结果如下: 也可以将多个样本绘制在一起:这里选取两个样本示例
一种名为 LinearDesign 的 AI 算法可通过优化密码子使用和稳定性快速设计 mRNA,但其仅优化未经修饰的 CDS 区域,并未整合 UTR,而 UTR 在 mRNA 稳定性和翻译效率中具有重要调控作用 在 CDS 之外,研究人员开发了 GEMORNA-UTR 模型,利用堆叠的 Transformer 解码器进行 UTR 的从头生成。 与 CDS 的编码器–解码器结构不同,UTR 模型采用仅包含解码器的结构,使其能在无源序列的条件下从头生成 5′ 和 3′ UTR。 该模型先在天然 UTR 上进行预训练,以学习隐含的序列规则,随后再用高翻译效率的 UTR 进行微调。最终生成的新 UTR 对可使 Fluc 活性较某已批准疫苗的 UTR 提升最高达 7 倍。 优化后的 CDS 与 UTR 组合在多个时间点诱导的抗体滴度约为其他算法设计的 mRNA 或某已上市疫苗的两倍。GEMORNA 也可在一步中同时生成 CDS 与 UTR。
上的基本结构←---------------- DNA 5' 到 3' 方向 ----------------→[启动子] --(+1 转录起始位点)-- [5' UTR + CDS外显子 + 内含子 + 3' UTR] -- [终止信号] -- [基因间区]#转录后DNA: [启动子] | +1 TSS |---5' UTR---|AUG|---CDS---|UAA|---3' UTR---|终止信号 |RNA: [转录产物 = 5' UTR + CDS + 3' UTR]成熟mRNA: [外显子1][外显子2][外显子3] (内含子被剪掉)启动子(Promoter 3' 非翻译区(3' UTR, 3' Untranslated Region):在终止密码子之后。不翻译成蛋白质。含有调控元件,如poly(A)信号(AAUAAA)。 5' UTR 外显子,CDS 外显子,3' UTR 外显子,即,外显子 ≠ 全部都是编码区;有的外显子仅是UTR的一部分。基因间区(Intergenic Region):相邻基因之间的DNA区域。
b) 在CD4+ T细胞活化后48小时,具有两种主要可变剪接体的3’-UTR的3’-UTR-使用的变化。突出显示的基因3’-UTR使用中显示出显著的(FDR<5%)变化。 c) 同b图,但突出显示了含有miR-155靶位点的3’-UTR。突出显示了含有短(实心)和长(空心)miR-155-靶位点的3’-UTR。 对于单3’UTR基因,poly(A)-seq FPKM与RNA-seq FPKM具有相关性,表明poly(A)-seq能够定量3’-UTR-同源异构体的表达。 与先前观察结果一致,给定miR-155-靶位点对3’-UTR异构体的调节同该异构体与3’-UTR末端的距离成负相关,因此表明ApA可能是细胞环境特异的miR-155调控机制之一。 图9 选择性多腺苷酸化在miR-155调控细胞内基因表达中的作用 a)多3’-UTR同源异构体在四种细胞类型的热图变化。b)3’-UTR包含miR-155细胞类型特异的ApA目标和显著差异。
-UTR (13 prediction datasets) 。 miRWalk2.0数据库的新特性: 结果归纳总结了13种不同的miRNA-mRNA预测数据库的信息 根据不同的miRNA结合位点:启动子,CDS,5'和3'-UTR,线粒体基因组提供miRNA-mRNA 目前支持靶位点在基因的5UTR,CDS,3UTR 三种数据,但是一般miRNA的靶位点在3UTR区域,所以下载3UTR即可。 ? 点击3UTR,我们看到有两个3UTR可供下载,根据标题可以看出第一个为来自miRwalk数据库本身算法的预测结果,第二个为来自其他12个miRNA-mRNA相互作用预测数据库的结果。 ? (3)结果解读 ?
下面是一个gff3格式文件的例子 ##gff-version 3 scaffold625 maker gene 337818 343277 . + . ID=CLUHART00000008717:five_prime_utr;Parent=CLUHART00000008717 scaffold625 maker three_prime_UTR 343034 ID=CLUHART00000008717:three_prime_utr;Parent=CLUHART00000008717 而gtf格式文件是这样的 ##gtf-version 3 scaffold625 通过conda安装gffread conda install -c bioconda gffread 3.格式转换,下面这一条命令就可以将gff3格式的注释文件转换成gtf格式的文件了。 gffread gencode.v19.annotation.gff3 -T -o gencode.v19.gtf 当然也可以将gtf格式的文件转换成gff3格式的文件 gffread gencode.vM13
######################### 附加题 ## 人类Y染色体上有多少个基因 $ zless Data/Homo_sapiens.GRCh38.102.chromosome.Y.gff3. gz | cut -f 3 | grep -v '#' | grep -w 'gene' -c > 47 ## 在Y染色体的注释文件中有第三列哪些类型呢? zless Data/Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz | cut -f 3 | grep -v '#' | sort |uniq -c | sort -n 1 chromosome 3 snoRNA 7 ncRNA 17 snRNA 47 gene 92 ncRNA_gene 149 mRNA 196 three_prime_UTR 222 five_prime_UTR 258 lnc_RNA 290 biological_region
mRNABERT在包括5'UTR、CDS、3'UTR及全长mRNA性质预测在内的多种下游任务中均展现出最先进(SOTA)的性能,标志着mRNA疗法研发迈出了重要一步。 或3'UTR等独立区域进行处理,无法捕捉全长mRNA中各区域协同作用的全局模式;最后,传统的Transformer架构在处理超长mRNA序列时面临巨大的计算成本,限制了其应用范围。 在5'UTR核糖体负载预测任务中,mRNABERT在8个合成文库数据集上的表现与专门针对5'UTR设计的SOTA模型(UTR-LM)相当,并在最大的两个数据集上取得了最佳结果(图3)。 CDS下游任务的性能对比 3'UTR:高效识别RBP结合与修饰位点 在预测22种RNA结合蛋白(RBP)位点和m6A修饰位点的任务中,mRNABERT展现了卓越的性能,在多数任务中超过了专门设计的3UTRBERT 图4. 3'UTR预测任务对比 跨模态应用:蛋白质性质预测的突破 除了mRNA本身的任务,mRNABERT还在蛋白质工程任务中展现了出色的跨模态能力。
研究人员提出了 GEMORNA,一种基于Transformer架构的生成式RNA模型,专门面向mRNA编码区(CDS)与非翻译区(UTR)的设计。 同时,非翻译区(尤其是5′ UTR)的调控机制仍未完全解析,导致其设计仍具挑战。因此,开发一种能够在全局水平上生成并优化mRNA序列的新型AI方法,成为推动mRNA疗法发展的关键。 GEMORNA-UTR:非翻译区的生成与优化 研究人员采用纯解码器架构训练GEMORNA-UTR模型,先在大规模天然UTR上预训练,再利用高翻译效率或稳定性的UTR进行微调。 结果表明,生成的UTRs在多项基准测试中优于现有设计,其中部分5′ UTR的表现甚至超过已获批疫苗(如BNT162b2)的UTR。 研究还发现,5′ 与 3′ UTR的组合存在靶点依赖性,不同目标蛋白需要特定的UTR组合来实现最佳表达。 全长mRNA的设计与验证 将优化的CDS与UTR组合后,研究人员设计并验证了多个全长mRNA。
StrandPredicted sequenceMA1563.2MA1563.2.SOX1810.96930.98504 1252 1259aacaataa 使用snapgene进行展示3. Itch-MUT位点2中分析得到其结合位点为WT:5′- AAC AAT AA -3′该位点评分极高,且含有SOX 核心:CAA,距离TSS位点近,结果理想MUT位点设计,遵循完全破坏 SOX(HMG-box ),不引入新的 TF motif,AT 含量变化合理的原则进行,将“CAA”改为“TTT”MUT: 5′- AAT TTT AA -3′验证:将突变后的序列重新使用JASPAR,设置 Relative 区域sup/WT_Itch_promoter_5'UTR.fasta'#WT:Itch启动子序列,可使用snapgene打开,其中标注了结合位点(可忽略)sup/WT_Itch_promoter_5'UTR.dna '#MUT:Itch启动子序列fasta文件,其中小写字母为TSS前2000bp序列,作为启动子区域;大写字母为5‘UTR区域sup/MUT_Itch_promoter_5'UTR.fasta'#MUT
UTR-shelf 3'UTR-island 368 857 1685 1802 1992 1stExon-shore 3'UTR-shore 5'UTR-shelf 1stExon-opensea TSS200-opensea 2506 3426 3789 4282 9058 TSS200-shore 5'UTR-shore 3 'UTR-opensea 5'UTR-opensea TSS1500-opensea 9372 9460 10274 UTR 1stExon 5'UTR TSS200 TSS1500 IGR Body 17494 22737 42685 52283 68984 119717