首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Linux基础入门

    TBtools | 获取基因代表序列基因序列模式定位

    本次介绍的是TBtools序列工具中的获取Fasta文件中的基因代表序列以及基因序列模式定位。 首先是Fasta Get Representative,该功能可以帮助我们在一个有多条序列的Fasta文件中提取出最长的代表性序列,用于下游分析。 http://tool.chinaz.com/regex 接下来介绍的是Sequence Pattern Locate,该功能可以在一个基因组文件中找到你需要的一段序列并定位其位置。 484 498 ATATATATATATAT Test 622 638 ATATATATATATATAT Test 804 822 ATATATATATATATATAT 提示:输出结果中一共4列 ,分别为序列ID、起始坐标、终止坐标、匹配到的序列

    5.1K10编辑于 2021-12-31
  • 来自专栏生物信息学

    Ensembl快速下载基因的同源基因序列

    直系同源因物种形成(speciation)而被区分开(separated):若一个基因原先存在于某个物种,而该物种分化为了两个物种,那么新物种中的基因是直系同源的;旁系同源的序列基因复制(gene duplication )而被区分开(separated):若生物体中的某个基因被复制了,那么两个副本序列就是旁系同源的。 由图可知,ensembl总共支持11中格式的序列下载,分别是CLUSTALW、FASTA、Mega、MSF、Nexus、OrthoXML、Pfam、Phylip、PhyloXML、PSI、Stockholm 可以适用于不同的软件,我们选择最常规的FASTA格式进行下载,然后在FASTA格式里选择 Unaligned sequences – proteins 这一项,之后点击红框中的 Download 按钮对MYH9基因的同源基因的蛋白序列进行下载 可能有人会问只有序列怎么通过ensembl寻找同源基因,这个可以通过Ensembl的BLAST/BLAT功能来寻找序列对应的基因,BLAST/BLAT功能的位置在下图的红框中进行标出: ?

    7K50发布于 2020-04-14
  • 来自专栏生物信息学、python、R、linux

    Fimo扫描基因序列

    在做motif分析时,经常用Fimo扫描基因序列得到motif对应的序列位置,进而进行下一步的分析。说明文档可参考:http://meme-suite.org/doc/fimo.html ? motif file sequence file是序列文件,用全基因组还是提出来的基因组片段都可以。 其他参数还有: ? Parameters 用到的比较多的还有--thresh,即p值的阈值,默认是1e-4;--qv--thresh可以修改q值的阈值。

    2.8K10发布于 2020-04-01
  • 来自专栏生信菜鸟团

    详解 Python 批量下载基因序列

    对于分析比对多个基因序列文件时的工作量说多了都是泪。比如,老板让你比对自己测定序列与 NCBI 库中序列,并构建相应的进化树,而这个序列需要大于100条。 我想你的心情不会和下载一条序列时那么平静,那么,接下来通过BioPython提供的接口来实现快速的自动化序列下载。 自动获取基因序列数据 0. 利用 Nucleotide 数据库来查询所有 oct4 基因序列数据,为了展示基础的流程,这里采用逐条下载的方式 from Bio import Entrez,SeqIO # 参数设置 Entrez.email = "your_email@163.com" Entrez.tool = "getGeneSeqScript" # 查询 oct4 基因的在 Nucleotide 中的总数 hd_egquery = Entrez.egquery(term="oct4") read_egquery = Entrez.read(hd_egquery) total = 0 for ele in read_egquery

    2.4K40发布于 2021-04-13
  • 来自专栏生物信息与临床医学专栏

    基因风险评分4

    今天这一期是多基因风险评分的最后内容,我将和大家主要介绍一下如何解读并充分利用PRSice的结果。 1. 其中,Pheno表示的是表型的名字,有时可以是缺失的;Set表示的基因集的名称;Threshold表示的是SNP的P值阈;R2表示的是PRS和表型拟合的决定系数;P表示PRS和表型拟合后的模型的P值;Coefficient 4. 个体PRS得分文件 这个文件包含最佳拟合模型下个体的PRS得分信息,以.best结尾。该文件主要包含四列FID,IID,In_Regression和PRS。 ID,这两个与PLINK的fam文件内容对应,另外In_Regression表示个体是否用于PRS和表型的拟合,Yes表示该个体被用于PRS和表型的拟合,而No表示未用于拟合,PRS表示的是该个体的多基因风险评分

    1.1K30编辑于 2022-08-21
  • 来自专栏生信探索

    基因序列变异信息VCF (Variant Call Format)

    VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。 base(s; 与参考序列比较,发生突变的碱基,可以有多个值,每个值用逗号分隔第6列:QUAL quality;Phred标准下的质量值,表示该变异位点的可靠性,可以理解为所call出来的变异位点的质量值 :GATK得出的一些分数可以用于过滤对于SRR24302402样本GT=0/1:基因型为G/CAD=12,4:覆盖到REF的reads数为12,覆盖到ALT的reads数为4DP=16:覆盖到13649 位点的reads数为16=12+4GQ=64:GT=0/1(即基因型为G/C)时的质量值为64PL=64,0,281:最有可能的GT是0/1(即基因型为G/C),对应PL值为0,概率为1#CHROM MQ=22.78;MQRankSum=1.19;QD=3.42;ReadPosRankSum=-3.040e-01;SOR=0.138 GT:AD:DP:GQ:PL 0/1:12,4:

    1.5K41编辑于 2023-05-23
  • 来自专栏微生态与微进化

    基因组CRISPR序列及Cas酶预测

    在CRISPR特征序列附近还有一些CRISPR-associated基因,编码一系列Cas蛋白,合称CRISPR/Cas系统。 这样一来,一段新的间隔序列就被添加到了基因组的CRISPR序列之中,形成了对病毒DNA的免疫“记忆”。 这三类系统又可以根据其编码Cas蛋白的基因不同而分为更多的亚类。不同类型CRISPR/Cas系统完成干扰的步骤也有所不同。 02 CRISPR预测 原核生物基因组中可能多处存在CRISPR序列,其预测注释可以使用CRISPRfinder(http://crispr.i2bc.paris-saclay.fr/Server/)在线分析 与重复序列长度比的最大值,默认为2.5 -s:spacer之间相似度的最大值,默认为60 -cpuP:程序运行使用的CPU数目,默认为1 -meta:分析宏基因序列 -gcode:密码子表,默认为大多数细菌所使用的密码子表

    1.6K30编辑于 2022-05-05
  • 来自专栏小明的数据分析笔记本

    叶绿体基因组重复序列分析工具~REPuter

    叶绿体基因组的文章通常都会做重复序列分析,其中会使用在线工具REPuter 来分析forward reverse complement palindromic 四种重复序列。 id=reputer_manual_manual 使用方法也很简单,直接上传fasta格式的序列,然后会有4个输入框需要填。分别是 重复片段的最大 最小长度。然后还有两个距离。 这两个距离是什么意思,现在我也不太清楚,可能是度量重复序列之间相似度的指标吧。我看到有论文里写会设置海明距离的。 然而自己在使用的时候一直会遇到报错, ? 不知道是什么原因,自己猜测是因为序列太长,在线版运行运算能力不够,所以尝试下载单机版REPuter,但是一直没有找到下载方法,无意间发现了vmatch程序,其中有一个perl脚本repfind.pl可以做 -f 和 -p 参数分别指定计算forward和palindromic重复,-h 海明距离3, -l 最小重复单位30bp 之前将以上的内容分享到了简书,今天有人留言说使用REPuter 做重复序列分析的时候

    2.5K10发布于 2020-10-26
  • 来自专栏Python小屋

    详解Python序列解包(4

    本文主要介绍调用函数传递参数时序列解包的用法。在定义函数时在形参前面加2个星号**表示可变长度参数,可以收集若干关键参数形式的参数传递并存放到一个字典之中。 对于这种形式的序列解包,要求实参字典中的所有键都必须是函数的形参名称,或者与函数中两个星号的可变长度参数相对应。 带有位置参数和默认值参数的函数 >>> def f(a, b, c=5): print(a, b, c) >>> f(**p) 1 2 3 # 带有多个默认值参数的函数 >>> def f(a=3, b=4,

    1.3K50发布于 2018-04-16
  • 来自专栏生信小驿站

    查询基因的核苷酸序列和蛋白的氨基酸序列

    查询基因的核苷酸序列 (1)在pubmed gene数据库选择输入想要查询的基因,点击search即可。 ? (2)选择人类 ? (3)选择人FASTA ? (4)得到核苷酸序列 ? 查询基因的核苷酸序列 (1)首先得到基因的UNIprotKB identifier ? (2)在UniProtKB 数据库基于identifier搜索蛋白相关信息 ? (4)得到氨基酸序列 ?

    2.9K30发布于 2020-06-05
  • 来自专栏生信修炼手册

    RepeatMasker:查找基因组上的重复序列

    RepeatMasker软件用于查找基因组上的重复序列,默认情况下,会将重复序列原有的碱基用N代替,从而达到标记重复序列的目的。 除此之外,也可以采用将重复序列转换为小写或者直接去除的方式,来标记重复序列。 该软件将输入的DNA序列与Dfam和Repbase数据库中已知的重复序列进行比对,从而识别输入序列中的重复序列。 当然也可以下载软件到本地运行,安装过程如下 wget http://www.repeatmasker.org/RepeatMasker-open-4-0-7.tar.gz tar xzvf RepeatMasker-open -4-0-7.tar.gz cd RepeatMasker perl . 运行完成后,会生成多个文件,后缀为masked的文件为标记重复序列后的文件,后缀为.out的文件保存了重复序列区间信息。

    3.5K20发布于 2020-05-08
  • 来自专栏微生态与微进化

    基因组reads筛选:去除宿主序列

    基于环境的复杂性与研究对象的不同,宏基因组数据在组装之前常需要过滤掉一些序列以防干扰研究。例如要研究动植物组织或肠道的微生物组,往往需要去除宿主的DNA序列。 假如研究的是人类肠道微生物的宏基因组,需要去除属于人基因组的序列。具体方法为将质控后的序列和人类基因序列进行比对,将比对上的序列去除。 宏基因组reads筛选:去除宿主序列 测序数据的组装:常用软件工具 更新中…… 短序列有参比对常用的软件有BWA、Bowtie、BBMap等。下面以Bowtie 2为例。 例如lane1.fq,lane2.fq,lane3.fq,lane4.fq。可以是多个文件,但是必须用逗号隔开。 ,根据序列信息,将原始数据中包含有宿主基因组的序列去除: 其中第一列为参考基因组染色体或scaffold名称,第二列与第三列为read在该染色体或scafflold比对的起始与终止位置,第四列为比对上的

    4.3K30编辑于 2022-05-05
  • 来自专栏Y大宽

    RNA-seq(4):下载参考基因组及基因注释

    1.在 UCSC 下载 hg19 参考基因组; 2.从 gencode 数据库下载基因注释文件,并且用 IGV 去查看感兴趣的基因的结构,比如TP53,KRAS,EGFR 等等。 3.截图几个基因的 IGV 可视化结构 4.下载 ENSEMBL,NCBI 的 gtf,也导入 IGV 看看,截图基因结构 5.了解 IGV 常识 来源于生信技能树:http://www.biotrainee.com 还好人类基因组已经组装好了,我们只需要把我们测得序列回贴(mapping)回去,毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行。 ,国际通用的人类参考基因组,其实他们储存的是同样的 fasta 序列, 只是分别对应着三种国际生物信息学数据库资源收集存储单位,即 NCBI,UCSC 及ENSEMBL 各自发布的基因组信息而已。 有一些参考基因组比较小众,存储的序列也不一样,比如 BGI 做的炎黄基因组,还有 DNA 双螺旋结构提出者沃森(Watson)的基因组,还有 2016 年发表在 nature 上面的号 称最完善的韩国人做的基因

    5.8K61发布于 2018-09-10
  • 来自专栏数据挖掘

    数据挖掘—UCSC中获取某基因的启动子序列基因结构剖析

    数据挖掘—UCSC中获取某基因的启动子序列基因结构剖析关于获取某基因的启动子序列,我之前已经有两篇帖子进行介绍了,见数据挖掘—NCBI中获取某基因序列和转录起始位点MSP甲基化引物设计最近遇到实验室的一个需求 的基因位置为chr9:4,985,272-5,129,948,其启动子序列就为chr9:4983272-4985271负链基因基因往后2000bp,如JAK1的基因位置为chr1:64,833,229 关于这一点,chatgpt尝试向我解释,可能是是UCSC在输出序列时候做了相应的转换。综上,不管是正链基因还是负链基因,UCSC输出的启动子序列都是右侧序列更靠近TSS。 ,UCSC输出的启动子序列都是右侧序列更靠近TSS3.复制全部序列,到一个TXT文本,再将文件后缀改为fasta即可4.操作截图JAK1JAK25.基因结构剖析一个基因在DNA上的基本结构#一个基因在DNA /video/BV1U4UPYDETV/?

    1.9K11编辑于 2025-10-20
  • 来自专栏Reinvent Data Science

    用 AI 识别基因,从向量化 DNA 序列开始

    基因序列分类 输入未知类别的 DNA 序列,在 Milvus 数据库中搜索与其相似的序列便可以对搜索对象进行基因分类,以此了解其可能的功能。 比如一段序列被分类为GPCRs(G蛋白偶联受体),则表示该序列或许关系着样本采取对象的各种生理功能[4]。 示例中的模型对未插入集合的人类基因序列进行搜索,成功根据搜索结果返回了正确的基因类别,证明了 Milvus 的向量相似性搜索能够分类基因序列。 nageshsingh/dna-sequence-dataset https://baike.baidu.com/item/G%E8%9B%8B%E7%99%BD%E5%81%B6%E8%81%94%E5%8F%97%E4% BD%93/9495289#4 https://iopscience.iop.org/article/10.1088/1742-6596/1453/1/012071/pdf https://www.ncbi.nlm.nih.gov

    1.6K21发布于 2021-08-20
  • 来自专栏Y大宽

    4️⃣ 核酸序列特征分析(8):重复序列的查找

    [序列比对和序列特征分析总目录](https://www.jianshu.com/p/878f2b2495ae 基因序列主要构成成分是基因序列,重复序列基因序列基因组注释包括基因组结构注释和基因组功能注释 结构注释的核心是基因识别,为了提高基因识别效率需要首先寻找并标记去除 重复的和低复杂性的序列。 什么是重复序列? 重复序列(repetitive sequence)是在基因组中不同位置出现的相同或对称性序列片段,一般不编码多肽。组织形式有两种:串联重复序列和分散重复序列。 分类 大致分三类: 低度重复序列 中度重复序列 高度重复序列 特点 GC含量低,AT含量高,3'和5'端有直接重复序列存在,有利形成环形结构。 常用数据库 GIRI的RepBase:常用的真核生物DNA重复序列数据库 RepeatMasker:常用的重复序列分析工具 ALU数据库:人和灵长类Alu重复片段 LINE-1数据库

    3.7K30发布于 2019-02-26
  • 来自专栏生物信息学

    一文搞定参考基因序列下载

    生物信息学的分析很大一部分都是围绕序列展开,可以说序列分析催生了生物信息学。比如通过与参考基因序列进行比对,检测各种变异;RNA-seq数据与参考基因组比对,进行定量。 今天给大家介绍如何下载某一个物种的参考基因序列,分为浏览器版与命令行版2种方式。 浏览器版 通过NCBI的genome数据库下载。 比如我要下载人类参考基因序列,打开https://www.ncbi.nlm.nih.gov/genome ,在搜索框中输入human, 会出现很多关键词提示,我们选择第一个(这是human的双名法名字 )如下图 点击搜索,返回的结果页面包括人基因组的各种基本信息,比如每一条染色体的大小、GC含量、基因数目、假基因数目、编码的蛋白质数目。 当然我们的目的是下载参考基因序列,其他信息先不管,结果页面最上面的部分显示了参考基因组的DNA,转录本,蛋白质三种类型的FASTA序列下载地址,如下所示 点击genome就可以下载了。

    3.2K20发布于 2020-04-14
  • 来自专栏简说基因

    模糊匹配:让基因序列分析不再「看走眼」

    基因组学研究中,迅速锁定特定的核苷酸序列模式是至关重要的步骤。 作为欧洲生物信息所的经典工具,Fuzznuc凭智能算法和灵活规则,成为基因序列分析的标准。 功能特点 1. 智能实验设计助手 • 自动推荐最优变异组合(如N替换为A/T/C/G的概率) • 生成兼容不同Cas9变体的序列库 • 内置Primer3在线引物设计模块,3步生成定制化实验方案 4. 推荐组合工具链: 原始readsFastp质控Megahit组装Fuzznuc模糊比对CircularRNA识别 4. 进化研究 比较不同物种的同源序列,分析保守区域的变异模式,推测功能重要性。 总结 Fuzznuc用创新模糊序列解析技术推动基因编辑研究,深入解析罕见变异与微生物组复杂基因。它适用于病毒进化、微生物群落分析及基因家族鉴定。

    31510编辑于 2025-02-25
  • 来自专栏Y大宽

    查找一个基因的启动子序列

    启动子通常位于转录起始位点(transcription start site,TSS)或第一个exon的上游 其次,找gene的TSS 对于注释好的物种的基因组,就很好找其promoter sequence 4为了确定是否正确(主要是TSS位点),可以把promoter sequence blast到UCSC genome broswer 复制ensembl的 promoter sequence

    5.7K20发布于 2018-12-13
  • 来自专栏R语言交流中心

    R语言实现基因序列的匹配和比对

    <- successiveViews(DNA.str,width = rep(4, 5)) 函数的介绍从此处开始: 1. reverse() 获取反向序列 ? 2. complement() 获取互补的序列 ? 3. reverseComplement() 获取反向互补的序列 ? 4. translate() 翻译函数,他只能针对XString和XXXSet类对象。 ? XString 类允许我们创建、存储和使用不同类型的字符串。 多模式的匹配函数如下: matchPDict():n个查询模式1条序列 countPDict():n个查询模式1条序列,仅计数 vmatchPDict():n个查询模式n条序列 vcountPDict( 4. pairwiseAlignment() / PairwiseAlignments()序列的对比,实例如下: pwa <-pairwiseAlignment("-PA--W-HEAE", "HEAGAWGHE-E

    8.1K40发布于 2019-07-31
领券