首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏igenome

    20220519_提取基因5UTR与3UTR与启动子序列的方法

    20220519_提取基因5'UTR与3'UTR与启动子序列的方法 01 打开UCSC genome browser网站 https://genome.ucsc.edu/cgi-bin/hgTables chr12%3A56%2C694%2C976-56%2C714%2C605&hgta_outputType=sequence&hgta_outFileName=test 1.png 2.png 02 5' UTR序列下载 3.png 03 3'UTR序列下载 4.png 04 启动子序列下载 5.png

    3.5K70编辑于 2022-05-19
  • 来自专栏DrugOne

    . | 5UTR语言模型:开辟蛋白质表达预测与优化的新途径

    图1. 5UTR语言模型(UTR-LM)的开发和应用流程:(a) 模型接收5UTR序列作为输入,通过128维随机嵌入和[CLS]-token传输至transformer层,预训练阶段包括掩蔽核苷酸预测 湿实验验证 通过设计并测试新的5UTR,研究验证了UTR-LM模型的预测准确性。图5表明,新设计的5UTR能够有效提高蛋白质的生产水平,证明了模型在生物技术和治疗领域的应用潜力。 图5. 通过湿实验设计并验证了包含211个具有高TE的5' UTR库。这些序列随后被用作独立的测试集来验证模型的效率。a,内部设计的5' UTR的mRNA结构。b,mRNA 转染和荧光素酶测定的实验流程。 c,d,与背景相比,内部5' UTR具有更高的 MRL (c) 和 TE (d) 预测值。 e,湿实验结果:前 20 个设计的5' UTR与基准5' UTR NCA-7d-5'UTR和HBB-5'UTR相比的相对TE。

    1.1K10编辑于 2024-04-12
  • 来自专栏生信技能树-R

    Linux-文本编辑 awk

    {print "find UTR"} /UTR/{print $3,$4,$5} END{print "end"} '| less -SN 图片 awk 内置变量 pic3 图片 awk 'BEGIN{ OFS=":"} {print $3,$4,$5}' Mar402 09:43:19 ~ $ cat Data/example.gtf | awk '{print $3,$4,$5}' | head # | awk 'BEGIN{OFS=":"} {print $3,$4,$5}' | head #用:将其分开 两个都是 UTR:1737:2090 exon:1737:2090 transcript: | awk '{print NR,$3":"$4"-"$5}' | head #加上NR列出当前是第几行 1 UTR:1737-2090 2 exon:1737-2090 3 transcript:1737 -4275 4 gene:1737-4275 5 exon:1873-1920 6 transcript:1873-3533 7 exon:2042-2090 8 exon:2476-2560 9 UTR

    1.6K40编辑于 2023-04-03
  • 来自专栏生物信息学习笔记

    生物信息学常见数据格式以及文本处理(grep/sed/awk)

    /example.gtf | awk 'BEGIN{print "find UTR feature" } /UTR/{print $0} END{print "end"}' |less -S find UTR feature chr1 ENSEMBL UTR 1737 2090 ENSG00000184731"; transcript_i end 3)内置参数 图片 $ cat example.gtf | awk 'BEGIN{OFS=":"} {print $3,$4,$5} ' |head -5 UTR:1737:2090 exon:1737:2090 transcript:1737:4275 gene:1737:4275 exon:1873:1920 4)awk 条件和循环语句 gene_id "ENSG00000240361"; transcript_i 5)算术运算 图片 $ less -S example.gtf | awk '/exon/{print $5-$4}'

    2.1K00编辑于 2023-02-20
  • 来自专栏数据和云

    利用OGG实现Oracle到Kafka到Greenplum的增量数据同步

    kafka-server-start.sh config/server.properties [oracle@gpmaster kafka]$ jps 18016 Kafka 2505 QuorumPeerMain 18458 Jps 5. ":"200818181648559171322","UTR_CARDNO_ENCRYPT":"GuL6A5JN4rwAaHb8fPSAMdhxRA9CL1RVIjWwP81YujHEvXuz0YnmBssWqslPmsAgsuPeKBdQarDb4B23oy0C6wMJYner9LKmRVbuNfuGummiWnRmHAM9Dn2dJKcujEPProxYeBWUMbEhk9V54Q018cML1bcf3fvJjKL ":null,"UTR_PM_ID":1,"UTR_CARDNO_ENCRYPT":"GuL6A5JN4rwAaHb8fPSAMdhxRA9CL1RVIjWwP81YujHEvXuz0YnmBssWqslPmsAgsuPeKBdQarDb4B23oy0C6wMJYner9LKmRVbuNfuGummiWnRmHAM9Dn2dJKcujEPProxYeBWUMbEhk9V54Q018cML1bcf3fvJjKL , UTR_NO, UTR_MER_NO, UTR_GW_NO, UTR_MER_ORDERNO, UTR_CURRENCY, UTR_AMOUNT, UTR_BANK_CODE, UTR_CHA_CODE = 'GuL6A5JN4rwAaHb8fPSAMdhxRA9CL1RVIjWwP81YujHEvXuz0YnmBssWqslPmsAgsuPeKBdQarDb4B23oy0C6wMJYner9LKmRVbuNfuGummiWnRmHAM9Dn2dJKcujEPProxYeBWUMbEhk9V54Q018cML1bcf3fvJjKL

    2.1K10发布于 2021-03-09
  • 来自专栏生信技能树

    m6A图文复现08-Peak结果可视化metaPlotR

    # creates the transcript regions (i.e. 5UTR, CDS and 3’UTR) perl size_of_cds_utrs.pl --annot GRCm39_ # 即,出现在5 ' utr中的位点的值从0到1,其中0和1分别代表5 ' utr5 '和3 '末端。 # 类似地,CDS中的位点值从1到2,3 ' utr值从2到3。 UTR and 3'UTR relative to the CDS utr5.SF <- median(m6a.dist$utr5_size, na.rm = T)/median(m6a.dist$cds_size $rel_location >= 2, ] # rescale 5'UTR and 3'UTR utr5.m6a.dist$rel_location <- rescale(utr5.m6a.dist$ rel_location, to = c(1-utr5.SF, 1), from = c(0,1)) utr3.m6a.dist$rel_location <- rescale(utr3.m6a.dist

    3.4K11发布于 2021-10-12
  • 来自专栏数据挖掘

    数据挖掘—UCSC中获取某基因的启动子序列及基因结构剖析

    在输出序列时候,我们可以既勾选“Promoter/Upstream by bases”,和“5' UTR Exons”,这样就很明显的看出,“5' UTR Exons”的区域都是在输出序列的最右侧,即可验证不管是正链基因还是负链基因 到 3' 方向 ----------------→[启动子] --(+1 转录起始位点)-- [5' UTR + CDS外显子 + 内含子 + 3' UTR] -- [终止信号] -- [基因间区]# 转录后DNA: [启动子] | +1 TSS |---5' UTR---|AUG|---CDS---|UAA|---3' UTR---|终止信号|RNA: [转录产物 = 5' 非翻译区(5' UTR, 5' Untranslated Region):在转录起始位点之后、翻译起始密码子(ATG)之前。不编码蛋白质。调控 mRNA的稳定性、核输出、翻译效率。 5' UTR 外显子,CDS 外显子,3' UTR 外显子,即,外显子 ≠ 全部都是编码区;有的外显子仅是UTR的一部分。基因间区(Intergenic Region):相邻基因之间的DNA区域。

    1.5K11编辑于 2025-10-20
  • Science | 深度生成模型助力设计高翻译效率与高稳定性的mRNA序列

    研究人员提出了 GEMORNA,一种基于Transformer架构的生成式RNA模型,专门面向mRNA编码区(CDS)与非翻译区(UTR)的设计。 同时,非翻译区(尤其是5UTR)的调控机制仍未完全解析,导致其设计仍具挑战。因此,开发一种能够在全局水平上生成并优化mRNA序列的新型AI方法,成为推动mRNA疗法发展的关键。 GEMORNA-UTR:非翻译区的生成与优化 研究人员采用纯解码器架构训练GEMORNA-UTR模型,先在大规模天然UTR上预训练,再利用高翻译效率或稳定性的UTR进行微调。 结果表明,生成的UTRs在多项基准测试中优于现有设计,其中部分5UTR的表现甚至超过已获批疫苗(如BNT162b2)的UTR。 研究还发现,5′ 与 3′ UTR的组合存在靶点依赖性,不同目标蛋白需要特定的UTR组合来实现最佳表达。 全长mRNA的设计与验证 将优化的CDS与UTR组合后,研究人员设计并验证了多个全长mRNA。

    16710编辑于 2026-01-08
  • 来自专栏生信小驿站

    如何预测miRNA靶基因(miRWalk2.0数据库)

    miRNAMap,doRiNA即PicTar2,PITA,RNA22v2,RNAhybrid2.1和Targetscan6.2)构建基于promoter (4 prediction datasets), cds (5 prediction datasets), 5’- (5 prediction datasets) and 3’-UTR (13 prediction datasets) 。 miRWalk2.0数据库的新特性: 结果归纳总结了13种不同的miRNA-mRNA预测数据库的信息 根据不同的miRNA结合位点:启动子,CDS,5'和3'-UTR,线粒体基因组提供miRNA-mRNA 目前支持靶位点在基因的5UTR,CDS,3UTR 三种数据,但是一般miRNA的靶位点在3UTR区域,所以下载3UTR即可。 ? 点击3UTR,我们看到有两个3UTR可供下载,根据标题可以看出第一个为来自miRwalk数据库本身算法的预测结果,第二个为来自其他12个miRNA-mRNA相互作用预测数据库的结果。 ?

    2.6K30发布于 2019-07-04
  • 外显子分析课前准备---单细胞数据3UTR长度与基因表达调控

    最近,3 ' UTR已成为亚细胞质定位翻译和mRNA依赖的共翻译蛋白复合物组装的重要调节因子。APA最初被认为是一种基因表达调控模式,其中3'UTR异构体比例的改变会导致整体基因表达的变化。 然而,转录组范围内的APA研究报道,不到20%的3'UTR变化调节mRNA或蛋白质的丰度。这表明mRNA丰度和3'UTR长度可能是独立的基因输出。 尽管差异基因表达分析已被广泛应用,但由于一些技术障碍,对3'UTR长度的研究仍然非常有限。基于3 '标签的单细胞RNA测序(scRNA-seq)方案可用于量化差异的3 ' UTR。 基因和3'UTR表达定量原始scRNAseq数据中开发基因和3'UTR异构体定量的计算pipeline。 scUTRquant和scUTRboot提供了从scRNA-seq数据进行3'UTR分析的工作流程基因表达数据 + 3'UTR异构体计数将基因分为单UTR基因和多UTR基因在所有被归类为多UTR基因的基因中

    61210编辑于 2024-09-11
  • 来自专栏DrugOne

    Nat. Commun. | mRNABERT:基于双重词元化和跨模态对比学习的通用mRNA大模型

    mRNABERT在包括5'UTR、CDS、3'UTR及全长mRNA性质预测在内的多种下游任务中均展现出最先进(SOTA)的性能,标志着mRNA疗法研发迈出了重要一步。 现有模型面临三大瓶颈:首先,公开的mRNA序列数据有限且质量参差不齐,现有RNA基础模型主要依赖非编码RNA(ncRNA)数据,忽略了mRNA的独特性;其次,现有模型往往将mRNA割裂为5'UTR、CDS 首先,模型采用了双重词元化策略(Dual Tokenization),打破了传统单一的编码方式,将5'和3'UTR区域按单个核苷酸(Nucleotide)进行词元化,而将CDS区域按密码子(Codon) 图2. mRNABERT捕获多层级的进化同源信息 5'UTR:精准预测核糖体负载 研究人员在多个局部区域的下游任务上对mRNABERT进行了全面评估。 在5'UTR核糖体负载预测任务中,mRNABERT在8个合成文库数据集上的表现与专门针对5'UTR设计的SOTA模型(UTR-LM)相当,并在最大的两个数据集上取得了最佳结果(图3)。

    19710编辑于 2025-11-29
  • 来自专栏DrugOne

    Nat. Chem. Biol. | AI 赋能的设计策略加速 mRNA 疗法研发

    一种名为 LinearDesign 的 AI 算法可通过优化密码子使用和稳定性快速设计 mRNA,但其仅优化未经修饰的 CDS 区域,并未整合 UTR,而 UTR 在 mRNA 稳定性和翻译效率中具有重要调控作用 在 CDS 之外,研究人员开发了 GEMORNA-UTR 模型,利用堆叠的 Transformer 解码器进行 UTR 的从头生成。 与 CDS 的编码器–解码器结构不同,UTR 模型采用仅包含解码器的结构,使其能在无源序列的条件下从头生成 5′ 和 3′ UTR。 该模型先在天然 UTR 上进行预训练,以学习隐含的序列规则,随后再用高翻译效率的 UTR 进行微调。最终生成的新 UTR 对可使 Fluc 活性较某已批准疫苗的 UTR 提升最高达 7 倍。 优化后的 CDS 与 UTR 组合在多个时间点诱导的抗体滴度约为其他算法设计的 mRNA 或某已上市疫苗的两倍。GEMORNA 也可在一步中同时生成 CDS 与 UTR

    20510编辑于 2025-11-29
  • 来自专栏数据挖掘

    JASPAR分析转录因子与某基因启动子的结合位点及MUT位点

    SOX 核心:CAA,距离TSS位点近,结果理想MUT位点设计,遵循完全破坏 SOX(HMG-box),不引入新的 TF motif,AT 含量变化合理的原则进行,将“CAA”改为“TTT”MUT: 5′ 1252–1259 这个位点完全消失,且没有接近原位点强度的替代位点,该序列有效4.相关文件说明#WT:Itch启动子序列fasta文件,其中小写字母为TSS前2000bp序列,作为启动子区域;大写字母为5UTR区域sup/WT_Itch_promoter_5'UTR.fasta'#WT:Itch启动子序列,可使用snapgene打开,其中标注了结合位点(可忽略)sup/WT_Itch_promoter_ 5'UTR.dna'#MUT:Itch启动子序列fasta文件,其中小写字母为TSS前2000bp序列,作为启动子区域;大写字母为5UTR区域sup/MUT_Itch_promoter_5'UTR.fasta '#MUT:Itch启动子序列,可使用snapgene打开,其中标注了结合位点(可忽略)sup/MUT_Itch_promoter_5'UTR.dna'

    85110编辑于 2026-01-05
  • 来自专栏生信宝典

    细胞环境对miR-155介导的四种主要免疫细胞类型基因调控的影响

    %)编码序列(CDS)、18个(1.5%) 5’ UTRs。 图5 细胞类型依赖性miR-155介导抑制的验证 这些结果与作者支持的miR-155细胞类型特异性调节的分析结果一致。 作者还通过证明各细胞类型中Aicda,Inpp5d,Spi1和Tab2蛋白表达降低进一步证实了miR-155介导的调节。 图8 Poly(A)-seq捕捉CD4+ T细胞活化过程中3’-UTR同源异构体使用的变化 a) 在CD4+T细胞活化期间,可变剪接体使用中具有显著(FDR<5%)变化的两个3’-UTR实例 b) 在CD4+ T细胞活化后48小时,具有两种主要可变剪接体的3’-UTR的3’-UTR-使用的变化。突出显示的基因3’-UTR使用中显示出显著的(FDR<5%)变化。

    1.1K10发布于 2019-10-14
  • 来自专栏DrugAI

    Science | 深度生成模型助力设计高翻译效率与高稳定性的mRNA序列

    研究人员提出了 GEMORNA,一种基于Transformer架构的生成式RNA模型,专门面向mRNA编码区(CDS)与非翻译区(UTR)的设计。 同时,非翻译区(尤其是5UTR)的调控机制仍未完全解析,导致其设计仍具挑战。因此,开发一种能够在全局水平上生成并优化mRNA序列的新型AI方法,成为推动mRNA疗法发展的关键。 GEMORNA-UTR:非翻译区的生成与优化 研究人员采用纯解码器架构训练GEMORNA-UTR模型,先在大规模天然UTR上预训练,再利用高翻译效率或稳定性的UTR进行微调。 结果表明,生成的UTRs在多项基准测试中优于现有设计,其中部分5UTR的表现甚至超过已获批疫苗(如BNT162b2)的UTR。 研究还发现,5′ 与 3′ UTR的组合存在靶点依赖性,不同目标蛋白需要特定的UTR组合来实现最佳表达。 全长mRNA的设计与验证 将优化的CDS与UTR组合后,研究人员设计并验证了多个全长mRNA。

    16820编辑于 2026-01-06
  • 来自专栏生信技能树

    甲基化探针相对于基因来说太多了怎么办

    1stExon-shore 3'UTR-shore 5'UTR-shelf 1stExon-opensea TSS200-opensea 2506 3426 3789 4282 9058 TSS200-shore 5'UTR-shore 3'UTR-opensea 5'UTR-opensea TSS1500-opensea 9372 9460 10274 11855 14667 1stExon-island 5'UTR-island IGR-shelf Body-shelf IGR-shore 15581 1stExon 5'UTR TSS200 TSS1500 IGR Body 17494 22737 42685 52283 68984 119717 161677

    78930编辑于 2023-02-28
  • 来自专栏R语言小白

    Linux - grep

    -w 'gene' ## 以单词的格式查找 >cat Data/example.gtf | grep -w -e 'gene' -e 'exon' ## 多个关键词 >cat file gene UTR cat readme.txt | grep [bB] ## b或B cat readme.txt | grep [^Tt] ##排除T和t cat Data/example.gtf | grep -E 'UTR ' cat Data/example.gtf | grep -w -e 'CDS' -e 'UTR' cat Data/example.fq | grep -c '@' cat Data/example.fq CEEDEB:E8ED>:EBD=@D6=5=<AA>A1CC>E############################### 附加题 ## 人类Y染色体上有多少个基因 $ zless Data/Homo_sapiens.GRCh38.102 snoRNA 7 ncRNA 17 snRNA 47 gene 92 ncRNA_gene 149 mRNA 196 three_prime_UTR

    9.7K40编辑于 2023-02-17
  • 来自专栏生信菜鸟团

    玩转参考基因组

    **Five_prime_utr (5' UTR)**: 5'非翻译区是mRNA的起始部分,在编码序列之前。它不编码蛋白质,但在调节翻译中发挥重要作用。 **Three_prime_utr (3' UTR)**: 3'非翻译区是mRNA的末端部分,在编码序列之后。它在调节mRNA的稳定性和翻译效率中起作用。 Exon: 1000-1200 1500-1700 2000-2400 三个外显子分别位于: 5' UTR: chr1 example five_prime_utr 1000 1099 . + . gene_id >chr2 占用 5 个字节。 换行符占用 1 个字节。 因此,*chr2* 的序列数据开始于第 34 个字节(6 + 20 + 2 + 6 = 34)。 ID=id-NC_045512.2:1..265;gbkey=5'UTR 6.3 从 Ensembl 获取数据 # 获取cdna数据 bio fetch ENST00000288602 --type

    95611编辑于 2025-04-15
  • 来自专栏生信菜鸟团

    VEP注释结果怎么看?

    1 splice_donor_variant&splice_donor_5th_base_variant&3_prime_UTR_variant&intron_variant &intron_variant&NMD_transcript_variant 2 splice_donor_variant&splice_donor_5th_base_variant&5_prime_UTR_variant &non_coding_transcript_exon_variant&intron_variant 3 splice_region_variant&5_prime_UTR_variant& prime_UTR_variant&NMD_transcript_variant 77 splice_region_variant&5_prime_UTR_variant 84 splice_acceptor_variant UTR variant (非翻译区变异): 发生在5' UTR或3' UTR区域的变异,可能影响基因的表达调控。

    2.3K21编辑于 2024-05-11
  • 来自专栏机器之心

    科普好文 | 自然界也有源代码:一位程序员「逆向工程」了辉瑞新冠疫苗

    5′ 非翻译区(5UTR) 蛋白质是生命的物质基础。当 RNA 转化为蛋白质时,这就叫做「翻译」。 RNA 分子只能从一个方向读取,读取在 5′ 非翻译区开始,在 3' 非翻译区停止。 5′ 非翻译区(5UTR)是指成熟 mRNA 位于编码区(CDS)上游、5′端帽下游不被翻译为蛋白质的区域: GAAΨAAACΨAGΨAΨΨCΨΨCΨGGΨCCCCACAGACΨCAGAGAGAACCCGCCACC 这只是 UTR 的功能之一:核糖体着陆区。UTR 提供了「导入」的功能。 除此之外,UTR 还包含元数据:翻译何时发生?发生多少?对于疫苗来说,他们采取了从 α 珠蛋白基因中获得的「即刻」UTR 。 3′ 非翻译区(3’ UTR) 就像核糖体在 5 '端需要一些导入,我们发现了' 5UTR。在蛋白质的末端我们发现了一个类似的结构,称之为 3 ' UTR。 可以概括如下几点 CAP 来确保 RNA 看起来像普通的 mRNA; 已知的成功和优化的 5'UTR; 密码子优化信号肽,可以将刺突蛋白发送到正确的位置(100% 复制自原始病毒); 原始刺突密码子优化版本

    59020编辑于 2023-03-29
领券