搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏igenome
20220519_提取基因5UTR与3UTR与启动子序列的方法
20220519_提取基因5'UTR与3'UTR与启动子序列的方法 01 打开UCSC genome browser网站 https://genome.ucsc.edu/cgi-bin/hgTables hgsid=1135464701_QYf1uabeAtCA3YKHZtBchoMoGhf0&clade=mammal&org=Mouse&db=mm10&hgta_group=genes&hgta_track =refSeqComposite&hgta_table=ncbiRefSeq&hgta_regionType=genome&position=chr12%3A56%2C694%2C976-56%2C714% 2C605&hgta_outputType=sequence&hgta_outFileName=test 1.png 2.png 02 5'UTR序列下载 3.png 03 3'UTR序列下载
3.5K70编辑于 2022-05-19
外显子分析课前准备---单细胞数据3UTR长度与基因表达调控
知识积累在mRNA中，3 '非翻译区(3 ' UTR)位于编码序列终止密码子和poly(A)尾部之间。然而，转录组范围内的APA研究报道，不到20%的3'UTR变化调节mRNA或蛋白质的丰度。这表明mRNA丰度和3'UTR长度可能是独立的基因输出。尽管差异基因表达分析已被广泛应用，但由于一些技术障碍，对3'UTR长度的研究仍然非常有限。基于3 '标签的单细胞RNA测序(scRNA-seq)方案可用于量化差异的3 ' UTR。基因和3'UTR表达定量原始scRNAseq数据中开发基因和3'UTR异构体定量的计算pipeline。 scUTRquant和scUTRboot提供了从scRNA-seq数据进行3'UTR分析的工作流程基因表达数据 + 3'UTR异构体计数将基因分为单UTR基因和多UTR基因在所有被归类为多UTR基因的基因中
62910编辑于 2024-09-11
来自专栏生信技能树-R
Linux-文本编辑 awk
$7,$1,$2,$3,$6}'| head #可以更改输出的顺序与cut是不一样的（cut必须按顺序提出） + chr1 ENSEMBL UTR . + chr1 ENSEMBL UTR . + chr1 {print "find UTR"} /UTR/{print $3,$4,$5} END{print "end"} '| less -SN 图片 awk 内置变量 pic3 图片 awk 'BEGIN{ OFS=":"} {print $3,$4,$5}' Mar402 09:43:19 ~ $ cat Data/example.gtf | awk '{print $3,$4,$5}' | head # | awk 'BEGIN{OFS=":"} {print $3,$4,$5}' | head #用：将其分开两个都是 UTR:1737:2090 exon:1737:2090 transcript: | awk '{print NR,$3":"$4"-"$5}' | head #加上NR列出当前是第几行 1 UTR:1737-2090 2 exon:1737-2090 3 transcript:1737
1.6K40编辑于 2023-04-03
来自专栏数据和云
利用OGG实现Oracle到Kafka到Greenplum的增量数据同步
shiphome.zip 192.168.11.151 目标端 kafka 2.12 OGG_BigData_Linux_x64_12.3.2.1.1.zip 192.168.11.165/4/3 =PLAINTEXT://localhost:9092 zookeeper.connect=localhost:2181 zookeeper.properties clientPort=2181 3. ":null,"UTR_PM_ID":1,"UTR_CARDNO_ENCRYPT":"GuL6A5JN4rwAaHb8fPSAMdhxRA9CL1RVIjWwP81YujHEvXuz0YnmBssWqslPmsAgsuPeKBdQarDb4B23oy0C6wMJYner9LKmRVbuNfuGummiWnRmHAM9Dn2dJKcujEPProxYeBWUMbEhk9V54Q018cML1bcf3fvJjKL 18 18:16:48.360706000","TR_TRANRETURNCODE":"10000","TR_TRANINFO":"Transaction Approved","TR_WHETHER_3D -18 18:16:48.360706000',TR_TRANRETURNCODE = '10000',TR_TRANINFO = 'Transaction Approved',TR_WHETHER_3D
2.2K10发布于 2021-03-09
来自专栏生物信息学习笔记
生物信息学常见数据格式以及文本处理（grep/sed/awk）
lower:] 2)截取一行的前几个字符 cut cut -c-num $ cat readme.txt | cut -c-4 #截取每行的前4个字符 Welc This Have Plea (htt 3) UTR feature chr1 ENSEMBL UTR 1737 2090 gene_id "ENSG00000184731"; transcript_i end 3)内置参数图片 $ cat example.gtf | awk 'BEGIN{OFS=":"} {print $3,$4,$5}' |head -5 UTR:1737:2090 exon:1737:2090 transcript:1737:4275 gene:1737:4275 exon:1873:1920 判断条件) {yes} else {no}' } 循环语句： awk ‘{ for {循环条件} {循环语句} }' $ less -S Data/example.gtf | awk '{ if($3=
2.2K00编辑于 2023-02-20
来自专栏DrugOne
. | 5′ UTR语言模型：开辟蛋白质表达预测与优化的新途径
研究团队收集了来自人类、小鼠、大鼠、鸡和斑马鱼的214,349个5′ UTR序列，以及来自人类肌肉组织、PC3前列腺癌细胞系和HEK 293T细胞系的三个独立数据集。在后续实验中，使用了由 DSL、SS 和 MFE 增强的基线 UTR-LM，称为 UTR-LM MRL。 UTR-LM模型准确预测了mRNA的这两项指标，这两个因素对于理解蛋白质生产至关重要。如图3所示，模型在这些任务上优于现有的所有基准方法。图3. 这些数据集的来源包括人体肌肉组织（Muscle）、PC3 和 HEK293T 细胞系。a-c，UTR-LM超参数在TE任务上的消融研究。在后续实验中，使用DSL和MFE增强的UTR-LM作为最终模型。 e，湿实验结果：前 20 个设计的5' UTR与基准5' UTR NCA-7d-5'UTR和HBB-5'UTR相比的相对TE。
1.1K10编辑于 2024-04-12
来自专栏生信修炼手册
TargetScan:哺乳动物miRNA靶基因数据库
哺乳动物中的miRNA通过结合转录本序列的3’UTR区，从而发挥转录后调控作用。 UTR区域，该数据库通过一种名为3P-seq的测序技术，确定转录本对应的3’UTR区，该技术原理示意如下 ? 并且结合该技术的分析结果和NCBI中已有的3’UTR注释，提供一个综合的3’UTR区序列。当然是不一致的，官方的说法是两个数据库中确定3’UTR区域的方式不同，对于TargetScanhuman中的human而言，直接用human的3’UTR区域，对于mouse而言，通过同源序列比对的方式确定其 3’UTR区域，用human的3’UTR序列和mouse的转录本比对，比对上的区域则为mouse的3’UTR区。
2.6K11发布于 2020-05-08
来自专栏医学数据库百科
选择性多聚腺苷酸化系列帖介绍
后来发现这个属于3‘UTR的一个东西，但是对于3'UTR吧，了解的也不是很深，然后又查了查3'UTR，所以就正常有了那么一个关于3'UTR的综述了。 ? 系列贴汇总由于 APA 事件其实就是 3'UTR 区 PolyA 尾的选择性形成，进而导致了一个基因虽然编码的蛋白相同，但是其 3'UTR 区域的长度不同。现在研究也发现不同长度的3'UTR可以发挥不同的功能。所以对于3‘UTR的功能的总结，就有了下面这个综述翻译的帖子。3'UTR是做什么的？在综述当中提到 3'UTR 当中具有一个富AU元件，这个对于3'UTR的功能有很大的影响，所以就有了关于富AU元件查找的数据库介绍：AU富集区域查找另外在综述当中，提到了两个来查询物种 PolyA 具体位点的查询的数据库以及另外有人用TC3A的数据和TCGA SNP的数据来进行交叉分析的数据库：SNP2APA。
1.2K20发布于 2020-07-14
来自专栏用户7627119的专栏
miRNA 靶向预测软件targetscan
01 Targetscan靶向预测思想 TargetScan 基于序列互补原则，找到比对到靶 3'UTR 的保守性 8 mer、7 mer 或 6 mer 位点（seed match 序列），进一步根据热力学稳定性筛选得到 -8nt 与靶基因完全配对)；8 mer (miRNA 2-8nt 与靶基因完全配对,而且 UTR 上与miRNA 1nt 互补配对的位置是 A)。主要包括如下几部分： Site Type 8 mer > 7 mer-m8 > 7 mer-1a； 3' pairing contribution：除了与 miRNA seed 区域配对，与 miRNA12 start：UTR 起始位置 UTR end：UTR 终止位置（起始和终止的长度大概是 6nt） 3' pairing contribution : 3' 端配对的贡献值 local AU contribution region ：UTR 区域的序列 UTR-miRNA pairing ：miRNA 与 UTR 互补配对的区域 mature miRNA sequence ：成熟的 miRNA 序列 miRNA
6.7K20发布于 2020-08-06
来自专栏生信技能树
m6A图文复现08-Peak结果可视化metaPlotR
# 即，出现在5 ' utr中的位点的值从0到1，其中0和1分别代表5 ' utr的5 '和3 '末端。 # 类似地，CDS中的位点值从1到2,3 ' utr值从2到3。 , na.rm = T) utr3.SF <- median(m6a.dist$utr3_size, na.rm = T)/median(m6a.dist$cds_size, na.rm = T) # $rel_location >= 2, ] # rescale 5'UTR and 3'UTR utr5.m6a.dist$rel_location <- rescale(utr5.m6a.dist$ rel_location, to = c(1-utr5.SF, 1), from = c(0,1)) utr3.m6a.dist$rel_location <- rescale(utr3.m6a.dist m6a_plot.sh 可视化图中：0 to 1：表示5'UTR；1 to 2：表示CDS；2 to 3：表示3'UTR 贴上两个样本的结果如下：也可以将多个样本绘制在一起：这里选取两个样本示例
3.4K11发布于 2021-10-12
来自专栏DrugOne
Nat. Chem. Biol. | AI 赋能的设计策略加速 mRNA 疗法研发
一种名为 LinearDesign 的 AI 算法可通过优化密码子使用和稳定性快速设计 mRNA，但其仅优化未经修饰的 CDS 区域，并未整合 UTR，而 UTR 在 mRNA 稳定性和翻译效率中具有重要调控作用在 CDS 之外，研究人员开发了 GEMORNA-UTR 模型，利用堆叠的 Transformer 解码器进行 UTR 的从头生成。与 CDS 的编码器–解码器结构不同，UTR 模型采用仅包含解码器的结构，使其能在无源序列的条件下从头生成 5′ 和 3′ UTR。该模型先在天然 UTR 上进行预训练，以学习隐含的序列规则，随后再用高翻译效率的 UTR 进行微调。最终生成的新 UTR 对可使 Fluc 活性较某已批准疫苗的 UTR 提升最高达 7 倍。优化后的 CDS 与 UTR 组合在多个时间点诱导的抗体滴度约为其他算法设计的 mRNA 或某已上市疫苗的两倍。GEMORNA 也可在一步中同时生成 CDS 与 UTR。
22510编辑于 2025-11-29
来自专栏数据挖掘
数据挖掘—UCSC中获取某基因的启动子序列及基因结构剖析
上的基本结构←---------------- DNA 5' 到 3' 方向 ----------------→[启动子] --(+1 转录起始位点)-- [5' UTR + CDS外显子 + 内含子 + 3' UTR] -- [终止信号] -- [基因间区]#转录后DNA: [启动子] | +1 TSS |---5' UTR---|AUG|---CDS---|UAA|---3' UTR---|终止信号 |RNA: [转录产物 = 5' UTR + CDS + 3' UTR]成熟mRNA: [外显子1][外显子2][外显子3] （内含子被剪掉）启动子（Promoter 3' 非翻译区（3' UTR, 3' Untranslated Region）：在终止密码子之后。不翻译成蛋白质。含有调控元件，如poly(A)信号（AAUAAA）。 5' UTR 外显子，CDS 外显子，3' UTR 外显子，即，外显子 ≠ 全部都是编码区；有的外显子仅是UTR的一部分。基因间区（Intergenic Region）：相邻基因之间的DNA区域。
1.7K11编辑于 2025-10-20
来自专栏生信宝典
细胞环境对miR-155介导的四种主要免疫细胞类型基因调控的影响
b) 在CD4+ T细胞活化后48小时，具有两种主要可变剪接体的3’-UTR的3’-UTR-使用的变化。突出显示的基因3’-UTR使用中显示出显著的（FDR<5%）变化。 c) 同b图，但突出显示了含有miR-155靶位点的3’-UTR。突出显示了含有短（实心）和长（空心）miR-155-靶位点的3’-UTR。对于单3’UTR基因，poly(A）-seq FPKM与RNA-seq FPKM具有相关性，表明poly(A）-seq能够定量3’-UTR-同源异构体的表达。与先前观察结果一致，给定miR-155-靶位点对3’-UTR异构体的调节同该异构体与3’-UTR末端的距离成负相关，因此表明ApA可能是细胞环境特异的miR-155调控机制之一。图9 选择性多腺苷酸化在miR-155调控细胞内基因表达中的作用 a)多3’-UTR同源异构体在四种细胞类型的热图变化。b)3’-UTR包含miR-155细胞类型特异的ApA目标和显著差异。
1.1K10发布于 2019-10-14
来自专栏生信小驿站
如何预测miRNA靶基因(miRWalk2.0数据库)
-UTR (13 prediction datasets) 。 miRWalk2.0数据库的新特性：结果归纳总结了13种不同的miRNA-mRNA预测数据库的信息根据不同的miRNA结合位点：启动子，CDS，5'和3'-UTR，线粒体基因组提供miRNA-mRNA 目前支持靶位点在基因的5UTR，CDS，3UTR 三种数据，但是一般miRNA的靶位点在3UTR区域，所以下载3UTR即可。 ? 点击3UTR，我们看到有两个3UTR可供下载，根据标题可以看出第一个为来自miRwalk数据库本身算法的预测结果，第二个为来自其他12个miRNA-mRNA相互作用预测数据库的结果。 ? （3）结果解读 ?
2.6K30发布于 2019-07-04
来自专栏用户7627119的专栏
gff文件转换成gtf文件
下面是一个gff3格式文件的例子 ##gff-version 3 scaffold625 maker gene 337818 343277 . + . ID=CLUHART00000008717:five_prime_utr;Parent=CLUHART00000008717 scaffold625 maker three_prime_UTR 343034 ID=CLUHART00000008717:three_prime_utr;Parent=CLUHART00000008717 而gtf格式文件是这样的 ##gtf-version 3 scaffold625 通过conda安装gffread conda install -c bioconda gffread 3.格式转换，下面这一条命令就可以将gff3格式的注释文件转换成gtf格式的文件了。 gffread gencode.v19.annotation.gff3 -T -o gencode.v19.gtf 当然也可以将gtf格式的文件转换成gff3格式的文件 gffread gencode.vM13
2.5K30发布于 2020-09-30
来自专栏R语言小白
Linux - grep
######################### 附加题 ## 人类Y染色体上有多少个基因 $ zless Data/Homo_sapiens.GRCh38.102.chromosome.Y.gff3. gz | cut -f 3 | grep -v '#' | grep -w 'gene' -c > 47 ## 在Y染色体的注释文件中有第三列哪些类型呢？ zless Data/Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz | cut -f 3 | grep -v '#' | sort |uniq -c | sort -n 1 chromosome 3 snoRNA 7 ncRNA 17 snRNA 47 gene 92 ncRNA_gene 149 mRNA 196 three_prime_UTR 222 five_prime_UTR 258 lnc_RNA 290 biological_region
9.7K40编辑于 2023-02-17
来自专栏DrugOne
Nat. Commun. | mRNABERT：基于双重词元化和跨模态对比学习的通用mRNA大模型
mRNABERT在包括5'UTR、CDS、3'UTR及全长mRNA性质预测在内的多种下游任务中均展现出最先进（SOTA）的性能，标志着mRNA疗法研发迈出了重要一步。或3'UTR等独立区域进行处理，无法捕捉全长mRNA中各区域协同作用的全局模式；最后，传统的Transformer架构在处理超长mRNA序列时面临巨大的计算成本，限制了其应用范围。在5'UTR核糖体负载预测任务中，mRNABERT在8个合成文库数据集上的表现与专门针对5'UTR设计的SOTA模型（UTR-LM）相当，并在最大的两个数据集上取得了最佳结果（图3）。 CDS下游任务的性能对比 3'UTR：高效识别RBP结合与修饰位点在预测22种RNA结合蛋白（RBP）位点和m6A修饰位点的任务中，mRNABERT展现了卓越的性能，在多数任务中超过了专门设计的3UTRBERT 图4. 3'UTR预测任务对比跨模态应用：蛋白质性质预测的突破除了mRNA本身的任务，mRNABERT还在蛋白质工程任务中展现了出色的跨模态能力。
20910编辑于 2025-11-29
Science | 深度生成模型助力设计高翻译效率与高稳定性的mRNA序列
研究人员提出了 GEMORNA，一种基于Transformer架构的生成式RNA模型，专门面向mRNA编码区（CDS）与非翻译区（UTR）的设计。同时，非翻译区（尤其是5′ UTR）的调控机制仍未完全解析，导致其设计仍具挑战。因此，开发一种能够在全局水平上生成并优化mRNA序列的新型AI方法，成为推动mRNA疗法发展的关键。 GEMORNA-UTR：非翻译区的生成与优化研究人员采用纯解码器架构训练GEMORNA-UTR模型，先在大规模天然UTR上预训练，再利用高翻译效率或稳定性的UTR进行微调。结果表明，生成的UTRs在多项基准测试中优于现有设计，其中部分5′ UTR的表现甚至超过已获批疫苗（如BNT162b2）的UTR。研究还发现，5′ 与 3′ UTR的组合存在靶点依赖性，不同目标蛋白需要特定的UTR组合来实现最佳表达。全长mRNA的设计与验证将优化的CDS与UTR组合后，研究人员设计并验证了多个全长mRNA。
18410编辑于 2026-01-08
来自专栏数据挖掘
JASPAR分析转录因子与某基因启动子的结合位点及MUT位点
StrandPredicted sequenceMA1563.2MA1563.2.SOX1810.96930.98504 1252 1259aacaataa 使用snapgene进行展示3. Itch-MUT位点2中分析得到其结合位点为WT:5′- AAC AAT AA -3′该位点评分极高，且含有SOX 核心：CAA，距离TSS位点近，结果理想MUT位点设计，遵循完全破坏 SOX（HMG-box ），不引入新的 TF motif，AT 含量变化合理的原则进行，将“CAA”改为“TTT”MUT: 5′- AAT TTT AA -3′验证：将突变后的序列重新使用JASPAR，设置 Relative 区域sup/WT_Itch_promoter_5'UTR.fasta'#WT:Itch启动子序列,可使用snapgene打开，其中标注了结合位点（可忽略）sup/WT_Itch_promoter_5'UTR.dna '#MUT:Itch启动子序列fasta文件，其中小写字母为TSS前2000bp序列，作为启动子区域；大写字母为5‘UTR区域sup/MUT_Itch_promoter_5'UTR.fasta'#MUT
95810编辑于 2026-01-05
来自专栏生信技能树
甲基化探针相对于基因来说太多了怎么办
UTR-shelf 3'UTR-island 368 857 1685 1802 1992 1stExon-shore 3'UTR-shore 5'UTR-shelf 1stExon-opensea TSS200-opensea 2506 3426 3789 4282 9058 TSS200-shore 5'UTR-shore 3 'UTR-opensea 5'UTR-opensea TSS1500-opensea 9372 9460 10274 UTR 1stExon 5'UTR TSS200 TSS1500 IGR Body 17494 22737 42685 52283 68984 119717
79230编辑于 2023-02-28

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

20220519_提取基因5UTR与3UTR与启动子序列的方法

外显子分析课前准备---单细胞数据3UTR长度与基因表达调控

Linux-文本编辑 awk

利用OGG实现Oracle到Kafka到Greenplum的增量数据同步

生物信息学常见数据格式以及文本处理（grep/sed/awk）

. | 5′ UTR语言模型：开辟蛋白质表达预测与优化的新途径

TargetScan:哺乳动物miRNA靶基因数据库

选择性多聚腺苷酸化系列帖介绍

miRNA 靶向预测软件targetscan

m6A图文复现08-Peak结果可视化metaPlotR

Nat. Chem. Biol. | AI 赋能的设计策略加速 mRNA 疗法研发

数据挖掘—UCSC中获取某基因的启动子序列及基因结构剖析

细胞环境对miR-155介导的四种主要免疫细胞类型基因调控的影响

如何预测miRNA靶基因(miRWalk2.0数据库)

gff文件转换成gtf文件

Linux - grep

Nat. Commun. | mRNABERT：基于双重词元化和跨模态对比学习的通用mRNA大模型

Science | 深度生成模型助力设计高翻译效率与高稳定性的mRNA序列

JASPAR分析转录因子与某基因启动子的结合位点及MUT位点

甲基化探针相对于基因来说太多了怎么办

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐