我已经从NCBI下载了240个基因组,当它们下载时,它们会根据它们的组装编号得到一个文件名。我想根据它们的物种名称来重命名这些文件,而不是它们的汇编编号,因为这将使数据的解释变得容易得多。
我知道一些(非常少的) python,而且我真的不能用谷歌搜索自己来解决这个问题。
文件名示例: GCF_000014225.1_ASM1422v1_genomic.fna
fasta标题示例:>NC_008228.1假交替单胞菌亚特兰蒂卡T6c,完整基因组
显然,如果我能去掉NC_008228.1和完整的基因组,我会很高兴,但仅仅是fasta头文件名会让我的生活变得更容易(另一种选择是做manually...but,我知道它可以通过一些编码来完成)
提前谢谢你!
发布于 2018-07-05 21:48:04
这可能是可以使用sys,但我认为bash是一个更好的解决您的问题。类似于:
for file in /dir/*; do
header=$(cat $file | egrep ">.*\w([a-zA-z]\w[a-zA-z])\w.*)")
mv $file $header.fa
donehttps://stackoverflow.com/questions/51192511
复制相似问题