搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏igenome
20220519_提取基因5UTR与3UTR与启动子序列的方法
20220519_提取基因5'UTR与3'UTR与启动子序列的方法 01 打开UCSC genome browser网站 https://genome.ucsc.edu/cgi-bin/hgTables chr12%3A56%2C694%2C976-56%2C714%2C605&hgta_outputType=sequence&hgta_outFileName=test 1.png 2.png 02 5' UTR序列下载 3.png 03 3'UTR序列下载 4.png 04 启动子序列下载 5.png
3.6K70编辑于 2022-05-19
来自专栏DrugOne
. | 5′ UTR语言模型：开辟蛋白质表达预测与优化的新途径
图1. 5′ UTR语言模型（UTR-LM）的开发和应用流程：(a) 模型接收5′ UTR序列作为输入，通过128维随机嵌入和[CLS]-token传输至transformer层，预训练阶段包括掩蔽核苷酸预测湿实验验证通过设计并测试新的5′ UTR，研究验证了UTR-LM模型的预测准确性。图5表明，新设计的5′ UTR能够有效提高蛋白质的生产水平，证明了模型在生物技术和治疗领域的应用潜力。图5. 通过湿实验设计并验证了包含211个具有高TE的5' UTR库。这些序列随后被用作独立的测试集来验证模型的效率。a，内部设计的5' UTR的mRNA结构。b，mRNA 转染和荧光素酶测定的实验流程。 c,d，与背景相比，内部5' UTR具有更高的 MRL (c) 和 TE (d) 预测值。 e，湿实验结果：前 20 个设计的5' UTR与基准5' UTR NCA-7d-5'UTR和HBB-5'UTR相比的相对TE。
1.2K10编辑于 2024-04-12
来自专栏生信技能树-R
Linux-文本编辑 awk
{print "find UTR"} /UTR/{print $3,$4,$5} END{print "end"} '| less -SN 图片 awk 内置变量 pic3 图片 awk 'BEGIN{ OFS=":"} {print $3,$4,$5}' Mar402 09:43:19 ~ $ cat Data/example.gtf | awk '{print $3,$4,$5}' | head # | awk 'BEGIN{OFS=":"} {print $3,$4,$5}' | head #用：将其分开两个都是 UTR:1737:2090 exon:1737:2090 transcript: | awk '{print NR,$3":"$4"-"$5}' | head #加上NR列出当前是第几行 1 UTR:1737-2090 2 exon:1737-2090 3 transcript:1737 -4275 4 gene:1737-4275 5 exon:1873-1920 6 transcript:1873-3533 7 exon:2042-2090 8 exon:2476-2560 9 UTR
1.6K40编辑于 2023-04-03
来自专栏生物信息学习笔记
生物信息学常见数据格式以及文本处理（grep/sed/awk）
/example.gtf | awk 'BEGIN{print "find UTR feature" } /UTR/{print $0} END{print "end"}' |less -S find UTR feature chr1 ENSEMBL UTR 1737 2090 ENSG00000184731"; transcript_i end 3)内置参数图片 $ cat example.gtf | awk 'BEGIN{OFS=":"} {print $3,$4,$5} ' |head -5 UTR:1737:2090 exon:1737:2090 transcript:1737:4275 gene:1737:4275 exon:1873:1920 4）awk 条件和循环语句 gene_id "ENSG00000240361"; transcript_i 5)算术运算图片 $ less -S example.gtf | awk '/exon/{print $5-$4}'
2.2K00编辑于 2023-02-20
来自专栏数据和云
利用OGG实现Oracle到Kafka到Greenplum的增量数据同步
kafka-server-start.sh config/server.properties [oracle@gpmaster kafka]$ jps 18016 Kafka 2505 QuorumPeerMain 18458 Jps 5. ":"200818181648559171322","UTR_CARDNO_ENCRYPT":"GuL6A5JN4rwAaHb8fPSAMdhxRA9CL1RVIjWwP81YujHEvXuz0YnmBssWqslPmsAgsuPeKBdQarDb4B23oy0C6wMJYner9LKmRVbuNfuGummiWnRmHAM9Dn2dJKcujEPProxYeBWUMbEhk9V54Q018cML1bcf3fvJjKL ":null,"UTR_PM_ID":1,"UTR_CARDNO_ENCRYPT":"GuL6A5JN4rwAaHb8fPSAMdhxRA9CL1RVIjWwP81YujHEvXuz0YnmBssWqslPmsAgsuPeKBdQarDb4B23oy0C6wMJYner9LKmRVbuNfuGummiWnRmHAM9Dn2dJKcujEPProxYeBWUMbEhk9V54Q018cML1bcf3fvJjKL , UTR_NO, UTR_MER_NO, UTR_GW_NO, UTR_MER_ORDERNO, UTR_CURRENCY, UTR_AMOUNT, UTR_BANK_CODE, UTR_CHA_CODE = 'GuL6A5JN4rwAaHb8fPSAMdhxRA9CL1RVIjWwP81YujHEvXuz0YnmBssWqslPmsAgsuPeKBdQarDb4B23oy0C6wMJYner9LKmRVbuNfuGummiWnRmHAM9Dn2dJKcujEPProxYeBWUMbEhk9V54Q018cML1bcf3fvJjKL
2.2K10发布于 2021-03-09
来自专栏生信技能树
m6A图文复现08-Peak结果可视化metaPlotR
# creates the transcript regions (i.e. 5’UTR, CDS and 3’UTR) perl size_of_cds_utrs.pl --annot GRCm39_ # 即，出现在5 ' utr中的位点的值从0到1，其中0和1分别代表5 ' utr的5 '和3 '末端。 # 类似地，CDS中的位点值从1到2,3 ' utr值从2到3。 UTR and 3'UTR relative to the CDS utr5.SF <- median(m6a.dist$utr5_size, na.rm = T)/median(m6a.dist$cds_size $rel_location >= 2, ] # rescale 5'UTR and 3'UTR utr5.m6a.dist$rel_location <- rescale(utr5.m6a.dist$ rel_location, to = c(1-utr5.SF, 1), from = c(0,1)) utr3.m6a.dist$rel_location <- rescale(utr3.m6a.dist
3.5K11发布于 2021-10-12
来自专栏数据挖掘
数据挖掘—UCSC中获取某基因的启动子序列及基因结构剖析
在输出序列时候，我们可以既勾选“Promoter/Upstream by bases”，和“5' UTR Exons”，这样就很明显的看出，“5' UTR Exons”的区域都是在输出序列的最右侧，即可验证不管是正链基因还是负链基因到 3' 方向 ----------------→[启动子] --(+1 转录起始位点)-- [5' UTR + CDS外显子 + 内含子 + 3' UTR] -- [终止信号] -- [基因间区]# 转录后DNA: [启动子] | +1 TSS |---5' UTR---|AUG|---CDS---|UAA|---3' UTR---|终止信号|RNA: [转录产物 = 5' 非翻译区（5' UTR, 5' Untranslated Region）：在转录起始位点之后、翻译起始密码子（ATG）之前。不编码蛋白质。调控 mRNA的稳定性、核输出、翻译效率。 5' UTR 外显子，CDS 外显子，3' UTR 外显子，即，外显子 ≠ 全部都是编码区；有的外显子仅是UTR的一部分。基因间区（Intergenic Region）：相邻基因之间的DNA区域。
2K11编辑于 2025-10-20
Science | 深度生成模型助力设计高翻译效率与高稳定性的mRNA序列
研究人员提出了 GEMORNA，一种基于Transformer架构的生成式RNA模型，专门面向mRNA编码区（CDS）与非翻译区（UTR）的设计。同时，非翻译区（尤其是5′ UTR）的调控机制仍未完全解析，导致其设计仍具挑战。因此，开发一种能够在全局水平上生成并优化mRNA序列的新型AI方法，成为推动mRNA疗法发展的关键。 GEMORNA-UTR：非翻译区的生成与优化研究人员采用纯解码器架构训练GEMORNA-UTR模型，先在大规模天然UTR上预训练，再利用高翻译效率或稳定性的UTR进行微调。结果表明，生成的UTRs在多项基准测试中优于现有设计，其中部分5′ UTR的表现甚至超过已获批疫苗（如BNT162b2）的UTR。研究还发现，5′ 与 3′ UTR的组合存在靶点依赖性，不同目标蛋白需要特定的UTR组合来实现最佳表达。全长mRNA的设计与验证将优化的CDS与UTR组合后，研究人员设计并验证了多个全长mRNA。
22810编辑于 2026-01-08
外显子分析课前准备---单细胞数据3UTR长度与基因表达调控
最近，3 ' UTR已成为亚细胞质定位翻译和mRNA依赖的共翻译蛋白复合物组装的重要调节因子。APA最初被认为是一种基因表达调控模式，其中3'UTR异构体比例的改变会导致整体基因表达的变化。然而，转录组范围内的APA研究报道，不到20%的3'UTR变化调节mRNA或蛋白质的丰度。这表明mRNA丰度和3'UTR长度可能是独立的基因输出。尽管差异基因表达分析已被广泛应用，但由于一些技术障碍，对3'UTR长度的研究仍然非常有限。基于3 '标签的单细胞RNA测序(scRNA-seq)方案可用于量化差异的3 ' UTR。基因和3'UTR表达定量原始scRNAseq数据中开发基因和3'UTR异构体定量的计算pipeline。 scUTRquant和scUTRboot提供了从scRNA-seq数据进行3'UTR分析的工作流程基因表达数据 + 3'UTR异构体计数将基因分为单UTR基因和多UTR基因在所有被归类为多UTR基因的基因中
65410编辑于 2024-09-11
来自专栏DrugOne
Nat. Chem. Biol. | AI 赋能的设计策略加速 mRNA 疗法研发
一种名为 LinearDesign 的 AI 算法可通过优化密码子使用和稳定性快速设计 mRNA，但其仅优化未经修饰的 CDS 区域，并未整合 UTR，而 UTR 在 mRNA 稳定性和翻译效率中具有重要调控作用在 CDS 之外，研究人员开发了 GEMORNA-UTR 模型，利用堆叠的 Transformer 解码器进行 UTR 的从头生成。与 CDS 的编码器–解码器结构不同，UTR 模型采用仅包含解码器的结构，使其能在无源序列的条件下从头生成 5′ 和 3′ UTR。该模型先在天然 UTR 上进行预训练，以学习隐含的序列规则，随后再用高翻译效率的 UTR 进行微调。最终生成的新 UTR 对可使 Fluc 活性较某已批准疫苗的 UTR 提升最高达 7 倍。优化后的 CDS 与 UTR 组合在多个时间点诱导的抗体滴度约为其他算法设计的 mRNA 或某已上市疫苗的两倍。GEMORNA 也可在一步中同时生成 CDS 与 UTR。
25510编辑于 2025-11-29
来自专栏生信小驿站
如何预测miRNA靶基因(miRWalk2.0数据库)
miRNAMap，doRiNA即PicTar2，PITA，RNA22v2，RNAhybrid2.1和Targetscan6.2）构建基于promoter (4 prediction datasets), cds (5 prediction datasets), 5’- (5 prediction datasets) and 3’-UTR (13 prediction datasets) 。 miRWalk2.0数据库的新特性：结果归纳总结了13种不同的miRNA-mRNA预测数据库的信息根据不同的miRNA结合位点：启动子，CDS，5'和3'-UTR，线粒体基因组提供miRNA-mRNA 目前支持靶位点在基因的5UTR，CDS，3UTR 三种数据，但是一般miRNA的靶位点在3UTR区域，所以下载3UTR即可。 ? 点击3UTR，我们看到有两个3UTR可供下载，根据标题可以看出第一个为来自miRwalk数据库本身算法的预测结果，第二个为来自其他12个miRNA-mRNA相互作用预测数据库的结果。 ?
2.7K30发布于 2019-07-04
来自专栏DrugOne
Nat. Commun. | mRNABERT：基于双重词元化和跨模态对比学习的通用mRNA大模型
mRNABERT在包括5'UTR、CDS、3'UTR及全长mRNA性质预测在内的多种下游任务中均展现出最先进（SOTA）的性能，标志着mRNA疗法研发迈出了重要一步。现有模型面临三大瓶颈：首先，公开的mRNA序列数据有限且质量参差不齐，现有RNA基础模型主要依赖非编码RNA（ncRNA）数据，忽略了mRNA的独特性；其次，现有模型往往将mRNA割裂为5'UTR、CDS 首先，模型采用了双重词元化策略（Dual Tokenization），打破了传统单一的编码方式，将5'和3'UTR区域按单个核苷酸（Nucleotide）进行词元化，而将CDS区域按密码子（Codon）图2. mRNABERT捕获多层级的进化同源信息 5'UTR：精准预测核糖体负载研究人员在多个局部区域的下游任务上对mRNABERT进行了全面评估。在5'UTR核糖体负载预测任务中，mRNABERT在8个合成文库数据集上的表现与专门针对5'UTR设计的SOTA模型（UTR-LM）相当，并在最大的两个数据集上取得了最佳结果（图3）。
23210编辑于 2025-11-29
来自专栏数据挖掘
JASPAR分析转录因子与某基因启动子的结合位点及MUT位点
SOX 核心：CAA，距离TSS位点近，结果理想MUT位点设计，遵循完全破坏 SOX（HMG-box），不引入新的 TF motif，AT 含量变化合理的原则进行，将“CAA”改为“TTT”MUT: 5′ 1252–1259 这个位点完全消失，且没有接近原位点强度的替代位点，该序列有效4.相关文件说明#WT:Itch启动子序列fasta文件，其中小写字母为TSS前2000bp序列，作为启动子区域；大写字母为5‘ UTR区域sup/WT_Itch_promoter_5'UTR.fasta'#WT:Itch启动子序列,可使用snapgene打开，其中标注了结合位点（可忽略）sup/WT_Itch_promoter_ 5'UTR.dna'#MUT:Itch启动子序列fasta文件，其中小写字母为TSS前2000bp序列，作为启动子区域；大写字母为5‘UTR区域sup/MUT_Itch_promoter_5'UTR.fasta '#MUT:Itch启动子序列,可使用snapgene打开，其中标注了结合位点（可忽略）sup/MUT_Itch_promoter_5'UTR.dna'
1.1K10编辑于 2026-01-05
来自专栏生信宝典
细胞环境对miR-155介导的四种主要免疫细胞类型基因调控的影响
％）编码序列（CDS）、18个(1.5%) 5’ UTRs。图5 细胞类型依赖性miR-155介导抑制的验证这些结果与作者支持的miR-155细胞类型特异性调节的分析结果一致。作者还通过证明各细胞类型中Aicda，Inpp5d，Spi1和Tab2蛋白表达降低进一步证实了miR-155介导的调节。图8 Poly(A)-seq捕捉CD4+ T细胞活化过程中3’-UTR同源异构体使用的变化 a) 在CD4+T细胞活化期间，可变剪接体使用中具有显著（FDR<5%）变化的两个3’-UTR实例 b) 在CD4+ T细胞活化后48小时，具有两种主要可变剪接体的3’-UTR的3’-UTR-使用的变化。突出显示的基因3’-UTR使用中显示出显著的（FDR<5%）变化。
1.1K10发布于 2019-10-14
来自专栏R语言小白
Linux - grep
-w 'gene' ## 以单词的格式查找 >cat Data/example.gtf | grep -w -e 'gene' -e 'exon' ## 多个关键词 >cat file gene UTR cat readme.txt | grep [bB] ## b或B cat readme.txt | grep [^Tt] ##排除T和t cat Data/example.gtf | grep -E 'UTR ' cat Data/example.gtf | grep -w -e 'CDS' -e 'UTR' cat Data/example.fq | grep -c '@' cat Data/example.fq CEEDEB:E8ED>:EBD=@D6=5=<AA>A1CC>E############################### 附加题 ## 人类Y染色体上有多少个基因 $ zless Data/Homo_sapiens.GRCh38.102 snoRNA 7 ncRNA 17 snRNA 47 gene 92 ncRNA_gene 149 mRNA 196 three_prime_UTR
9.8K40编辑于 2023-02-17
来自专栏DrugAI
Science | 深度生成模型助力设计高翻译效率与高稳定性的mRNA序列
研究人员提出了 GEMORNA，一种基于Transformer架构的生成式RNA模型，专门面向mRNA编码区（CDS）与非翻译区（UTR）的设计。同时，非翻译区（尤其是5′ UTR）的调控机制仍未完全解析，导致其设计仍具挑战。因此，开发一种能够在全局水平上生成并优化mRNA序列的新型AI方法，成为推动mRNA疗法发展的关键。 GEMORNA-UTR：非翻译区的生成与优化研究人员采用纯解码器架构训练GEMORNA-UTR模型，先在大规模天然UTR上预训练，再利用高翻译效率或稳定性的UTR进行微调。结果表明，生成的UTRs在多项基准测试中优于现有设计，其中部分5′ UTR的表现甚至超过已获批疫苗（如BNT162b2）的UTR。研究还发现，5′ 与 3′ UTR的组合存在靶点依赖性，不同目标蛋白需要特定的UTR组合来实现最佳表达。全长mRNA的设计与验证将优化的CDS与UTR组合后，研究人员设计并验证了多个全长mRNA。
21220编辑于 2026-01-06
来自专栏生信技能树
甲基化探针相对于基因来说太多了怎么办
1stExon-shore 3'UTR-shore 5'UTR-shelf 1stExon-opensea TSS200-opensea 2506 3426 3789 4282 9058 TSS200-shore 5'UTR-shore 3'UTR-opensea 5'UTR-opensea TSS1500-opensea 9372 9460 10274 11855 14667 1stExon-island 5'UTR-island IGR-shelf Body-shelf IGR-shore 15581 1stExon 5'UTR TSS200 TSS1500 IGR Body 17494 22737 42685 52283 68984 119717 161677
80530编辑于 2023-02-28
来自专栏生信菜鸟团
玩转参考基因组
**Five_prime_utr (5' UTR)**： 5'非翻译区是mRNA的起始部分，在编码序列之前。它不编码蛋白质，但在调节翻译中发挥重要作用。 **Three_prime_utr (3' UTR)**： 3'非翻译区是mRNA的末端部分，在编码序列之后。它在调节mRNA的稳定性和翻译效率中起作用。 Exon: 1000-1200 1500-1700 2000-2400 三个外显子分别位于： 5' UTR: chr1 example five_prime_utr 1000 1099 . + . gene_id >chr2 占用 5 个字节。换行符占用 1 个字节。因此，*chr2* 的序列数据开始于第 34 个字节（6 + 20 + 2 + 6 = 34）。 ID=id-NC_045512.2:1..265;gbkey=5'UTR 6.3 从 Ensembl 获取数据 # 获取cdna数据 bio fetch ENST00000288602 --type
1.1K11编辑于 2025-04-15
来自专栏生信菜鸟团
VEP注释结果怎么看？
1 splice_donor_variant&splice_donor_5th_base_variant&3_prime_UTR_variant&intron_variant &intron_variant&NMD_transcript_variant 2 splice_donor_variant&splice_donor_5th_base_variant&5_prime_UTR_variant &non_coding_transcript_exon_variant&intron_variant 3 splice_region_variant&5_prime_UTR_variant& prime_UTR_variant&NMD_transcript_variant 77 splice_region_variant&5_prime_UTR_variant 84 splice_acceptor_variant UTR variant (非翻译区变异): 发生在5' UTR或3' UTR区域的变异，可能影响基因的表达调控。
2.6K21编辑于 2024-05-11
来自专栏DrugOne
RNA模型可以帮助发现疾病机制和候选药物
作者发现，BigRNA在预测这些变异对其相关疾病基因表达的影响时表现出了强大的性能，无论是在3'UTR还是5'UTR中（AUC=0.95和0.8，图2a）。在5'UTR中的较弱性能可能是由于P/LP变异中调节RNA表达的比例较小，以及影响翻译的机制比例较大（29/47）。作者进一步研究了3'UTR中已知的致病性表达降低变异NAA10。与Enformer相比，BigRNA在5'UTR和3'UTR的致病性变异分类方面表现更好。 Framepool对5'UTR的致病性变异分类表现与BigRNA类似，但BigRNA在分类已知调节RNA表达的一部分致病性5'UTR变异方面表现更好。将BigRNA应用于这些变异，以5%的假阳性率（FPR）阈值为基础，在3'UTR中找到了12个潜在的表达调控变异，在5'UTR中找到了23个（图2d）。
39930编辑于 2023-11-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

20220519_提取基因5UTR与3UTR与启动子序列的方法

. | 5′ UTR语言模型：开辟蛋白质表达预测与优化的新途径

Linux-文本编辑 awk

生物信息学常见数据格式以及文本处理（grep/sed/awk）

利用OGG实现Oracle到Kafka到Greenplum的增量数据同步

m6A图文复现08-Peak结果可视化metaPlotR

数据挖掘—UCSC中获取某基因的启动子序列及基因结构剖析

Science | 深度生成模型助力设计高翻译效率与高稳定性的mRNA序列

外显子分析课前准备---单细胞数据3UTR长度与基因表达调控

Nat. Chem. Biol. | AI 赋能的设计策略加速 mRNA 疗法研发

如何预测miRNA靶基因(miRWalk2.0数据库)

Nat. Commun. | mRNABERT：基于双重词元化和跨模态对比学习的通用mRNA大模型

JASPAR分析转录因子与某基因启动子的结合位点及MUT位点

细胞环境对miR-155介导的四种主要免疫细胞类型基因调控的影响

Linux - grep

Science | 深度生成模型助力设计高翻译效率与高稳定性的mRNA序列

甲基化探针相对于基因来说太多了怎么办

玩转参考基因组

VEP注释结果怎么看？

RNA模型可以帮助发现疾病机制和候选药物

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐