首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信情报站

    fasta格式 图解

    ?

    58720发布于 2021-01-13
  • 来自专栏R语言___生物信息

    R语言操作FASTA文件

    Question: Subsetting a fasta file using seqinr in R library("seqinr") SeqinR - biological data handling reads in sequences from GenBank and allows you to quickly extract specific parts and write them to FASTA quickly extract parts of concatenated or genomic sequences based on GenBank features and write them to FASTA

    1.3K70发布于 2018-06-19
  • 来自专栏技术博客文章

    fasta转phylip格式

    install.packages("BiocManager") BiocManager::install('devtools') BiocManager::install('phylotools') 假设fasta 文件名为: aligned_fasta.fasta 读取fasta文件,转化: library(devtools) library(phylotools) dat <- read.fasta("aligned_fasta.fasta

    2.7K20编辑于 2021-12-06
  • 来自专栏医学数据库百科

    FASTA序列格式介绍

    之前介绍很多基于序列分析的数据库的时候,都会提到FASTA序列。之后也会遇到很多基于序列分析的数据库。所以今天就把基因序列的格式单独拎出来说一下。 fasta 序列 在上面介绍基因序列的基本内容的的时候提到了基因的序列的核苷酸/氨基酸形式就是一堆字母的排列。例如 TP53 的一段 DNA 序列。 也就有了fasta序列格式。 在 fasta 文件当中,每一个序列由两部分组成。 序列的特征性 ID,例如:基因名,[[Gene Id二三事]] 等等。 具体的基因序列。 例如,TP53 DNA 的 fasta 序列。 format: https://zhanggroup.org/FASTA/

    3.5K10编辑于 2022-01-05
  • 来自专栏Linux基础入门

    TBtools | Fasta格式与Table格式相互转化、Fasta文件拆分合并

    本次介绍的是TBtools序列工具中的Fasta格式与Table格式相互转化以及Fasta文件的拆分与合并。 进入TBtools界面,点击Sequence Toolkit进入Fasta Tools即可看到(如下图)。 首先介绍的是Fasta to Table Convert,该功能可以实现将Fasta格式的序列文件转换为Table格式,也可以将Table格式序列文件转换成Fasta格式。 格式,只需要将TBtools中的转换方式调成[Table to Fasta]即可。 接下来介绍的是Fasta Merge and Split,该功能可以实现将多个Fasta文件合并成一个,或者将一个Fasta文件拆分成多个。

    8.5K10编辑于 2021-12-15
  • 来自专栏生信喵实验柴

    fasta格式文件介绍与处理

    今天的部分是fasta格式文件介绍与处理。 一、fasta 文件格式 FASTA 文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名 fa,fasta,fna 等。 1.1 fasta 文件格式介绍 fasta 文件中,第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列 ID 部分可以包含注释信息 文件格式处理案例 # fasta 文件格式处理案例 #案例一:统计 seqkit stats kmer45.scafSeq #分别统计每一条序列长度 seqkit fx2tab kmer45.scafSeq #seqkit seq 加-r -p 同时取反向互补序列 seqkit seq -r -p test.fasta #案例十:转换大小写 seqkit seq -l kmer45.scafSeq| head

    4.4K20编辑于 2022-05-23
  • 来自专栏用户7627119的专栏

    R如何将fasta转成dataframe

    前面我们讲了R批量下载B细胞和T细胞受体VDJ序列文件,那么如何将这些fasta序列读到R里面,方便后面处理呢?今天小编就给大家演示一下如何利用R将fasta序列转成data.frame。 我们就用上次下载到的BCR的VDJ序列为例,7个fasta文件存放在BCR_seq文件夹中。 Biostrings包 BiocManager::install("Biostrings") library("Biostrings") library(plyr) filenames=gsub("\\.fasta ","",list.files("BCR_seq")) filepath=list.files("BCR_seq",full.names = T) #循环读入7个fasta文件额内容 data <- llply 前面我们讲了四种获取fasta序列长度的方法,其实读到R里面之后,也能获取每条fasta序列的长度。

    1.2K20编辑于 2022-09-21
  • 来自专栏生物信息学、python、R、linux

    gffread - gtfgff文件转fasta序列

    今天有一个需求,就是要将gtf中的转录本转成fasta序列,一开始是想着用bedtools getfasta实现,awk取出来坐标做成bed文件输入bedtools,但是结果发现bedtools是单纯按照坐标取出来的 如上图所示,“ENSMUST00000082908.1”转录本是这两个exons,取出这个转录本的fasta序列其实就是这两个exons对应的序列位置,需要把两个序列连起来。 使用如下代码即可转换: gffread transcripts.gtf -g reference.fasta -w transcripts.fasta​ 转出来效果: ?

    3.7K11发布于 2020-06-22
  • 来自专栏生信技能树

    fasta序列读入到R里面去

    原贴来自于生信技能树论坛: http://www.biotrainee.com/thread-806-1-1.html把fasta序列读入到R里面去~ fasta是什么,我就不多说了! ? 你一定会遇到这个需求,把fasta序列读入到R里面,至于读进去变成一个字符串还是一个list还是一个对象,是后话! 本地读取 我这里先给几个本地读取的方法: library(Biostrings) ; s = readDNAStringSet("nm.fasta") readBStringSet(filepath, format="fasta", nrec=-1L, skip=0L, seek.first.rec=FALSE, use.names=TRUE) library(seqinr); fastafile< -read.fasta(file = "proteins.fasta", seqtype = "AA",as.string = TRUE) library(ape); read.dna(); read.FASTA

    5.8K50发布于 2018-12-24
  • 来自专栏生物信息学

    fasta序列按指定格式输出

    前言:有时在处理fasta文件时,我们需要序列按照规定的格式排列。 很多人应该遇到过需要将序列排列到一行上,或者每行按照规定的bp数显示。 我也经常遇到像60bp,70bp的不等长fasta序列共存于同一个fasta文件中的情况,为了避免不同长度对后面的处理造成影响,一般最好将格式统一。 1、这里我使用全长158bp,60bp每行显示,最后一行38bp排列的两条fasta序列组成的fasta文件来举例。 ")#原始fasta文件describe.add_argument("optf",help="Output fasta")#修改格式后的输出文件args=describe.parse_args() ## writer = FastaWriter(output_fasta,wrap=args.nwrap)#设置写出格式writer.write_file(SeqIO.parse(args.orgf,"fasta

    1.8K40发布于 2020-04-13
  • 来自专栏生信技能树

    下载所有芯片探针序列并且写成fasta文件

    只需要简单的技巧就可以写成fasta文件: all_recs=paste(apply(probe2seq,1,function(x) paste0('>',x[1],'\n',x[2])),collapse

    1.7K10发布于 2018-12-25
  • 来自专栏HUBU生信

    简介不同的文件格之Fasta格式

    在浏览核酸蛋白质数据库的时候会经常遇见不同的文件格式,常见的有Fasta格式文件、NBRF/PIR格式文件、 EMBL/SWISSPROT格式文件、Clustal(*.aln)格式文件、GCG/MSF Fasta格式 Fasta格式包含序列文件和质量文件 1.Fasta序列文件格式是核酸蛋白数据最常见的一种文件格式,第一行以'<'开头引导的序列名称开始,后面接序列的详细信息,随后的行接序列,每一行序列长度不超过 2.Fasta格式质量文件第一行和序列文件一样,只是序列部分对应的是每个碱基的质量,用空格分隔。 ? ? Fasta格式序列文件 ? ? ? 全文结束,欢迎在评论区讨论~

    2.4K30发布于 2018-12-27
  • 来自专栏生物信息学、python、R、linux

    samtools faidx创建fasta格式文件索引fai

    fasta是一种常用的序列存储格式,GATK、IGV等软件对序列进行快速查找的时候通常需要建立fasta的索引文件。 reference sequence LENGTH Total length of this reference sequence, in bases OFFSET Offset within the FASTA

    6.5K60发布于 2020-11-12
  • 来自专栏python3

    根据bed文件从fasta文件中获取基因

    第一次写博客,分享一个做的提取基因序列的程序,根据bed文件里的位置信息从基因组里提取序列

    3.9K10发布于 2020-02-10
  • 来自专栏生信宝典

    Linux学习-文件排序和FASTA文件操作

    序列提取 生成单行序列FASTA文件,提取特定基因的序列,最简单的是使用grep命令。 # 生成单行序列FASTA文件 ct@ehbio:~$ cat <<END >test.fasta > >SOX2 > ACGAGGGACGCATCGGACGACTGCAGGACTGTC > >POU5F1 >SOX2 ACGAGGGACGCATCGGACGACTGCAGGACTGTC 多行FASTA序列提取要麻烦些,一个办法就是转成单行序列,用上面的方式处理。 ct@ehbio:~$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' >SOX2 ACGAGGGACGCATCGGACGACTGCAGGACTGTC # 差别只在一点 # 对于单行fasta文件,只需要记录一行,seq[name]=$0 # 对于多好fasta文件,需要把每一行序列都加到前面的序列上,seq[name]=seq[name]$0 ct@

    2.9K100发布于 2018-02-05
  • 来自专栏R语言___生物信息

    在线实用工具:处理fasta文件

    在线处理fasta文件工具 FaBox (1.41) - an online fasta sequence toolbox 场景1,手头有两个文件,file1包含大量fasta序列,想要从中提取自己感兴趣的序列信息

    2.3K50发布于 2018-06-19
  • 来自专栏用户7627119的专栏

    四种获取fasta序列长度的方法

    在处理fasta序列的时候,我们经常需要获取每一条fasta序列的长度。今天小编就跟大家来分享四种获取fasta序列长度的方法。 一、awk awk '/^>/{if (l! ="") print l; print; l=0; next}{l+=length($0)}END{print l}' test.fasta 输出为 >Chr1 15704606 >Chr10 8327059 >Chr9 8318069 二、bioawk conda install bioawk bioawk -c fastx '{ print $name, length($seq) }' < test.fasta 4872821 Chr7 8973615 Chr8 8275968 Chr9 8318069 三、samtools #生成.fai文件 samtools faidx test.fasta #提取前两列 cut -f1-2 test.fasta.fai 生成的.fai文件如下,前两列正好就是fasta序列的名字和长度。

    2.9K30编辑于 2022-09-21
  • 来自专栏小明的数据分析笔记本

    python脚本:nexus比对格式批量转化为fasta格式

    今天有人发邮件问批量转化nexus格式为fasta格式。 \input_nexus\ output_fasta fasta结果文件将会保存在 output_fasta文件夹中 nexus比对格式 #NEXUS BEGIN DATA; dimensions ntax 今天有人发邮件问批量转化nexus格式为fasta格式。 \input_nexus\ output_fasta fasta结果文件将会保存在 output_fasta文件夹中 不同的比对软件会输出不一样的比对格式;比对后分析用到的软件对输入格式的要求也不一样 \batch_convert_nex_to_fasta.py .\input_nexus\ output_fasta fasta结果文件将会保存在 output_fasta文件夹中

    2.1K10发布于 2020-07-10
  • 来自专栏小徐学爬虫

    fasta文件中提取指定长度序列构建矩阵

    要从 FASTA 文件中提取指定长度的序列并构建矩阵,你可以使用 BioPython 库,它可以方便地处理生物序列数据。 你可以通过从 FASTA 文件中读取序列,然后将每个序列拆分成指定长度的子序列,最终构建矩阵。以下是一个示例代码,它从一个 FASTA 文件中读取序列,并根据指定的长度提取子序列构建矩阵。 1、问题背景给定一个fasta文件,需要从fasta文件中提取指定长度的序列,并对这些序列应用一个名为identical_segment()的函数,然后将这些序列构建成一个矩阵。 2、解决方案使用python的内置函数open()打开fasta文件,并逐行读取文件内容。 文件fasta_file = open('input.fasta', 'r')​# 创建一个文件用于存储序列的子序列outfile = open('outf', 'w')​# 逐行读取fasta文件for

    55910编辑于 2024-09-09
  • 来自专栏生信札记

    Fasta序列文件合并与分割,支持.seq等无头序列

    Fasta Merge and Split 序列的合并和分割。这个功能是 TBtools 早期功能之一,估摸至少也是四五年前。写出来之后,我自己几乎是没用过的。 Fasta Split 进行序列文件分割 分割功能,说实话,TBtools 有点厉害。我们使用刚才合并的那个文件。 [1240] 当然,我们也可以调整个数,比如分割后每个文件保留不多于4个序列记录。

    2K10发布于 2021-05-09
领券