Hello,Hello小伙伴们大家好,好久没有给大家更新微信公众文了,最近小编在搭建宏病毒组相关流程,宏病毒和宏基因最大的区别在于,在组装的fasta序列中识别病毒序列。今天小编要给大家介绍一款从宏基因组中识别巨病毒序列的工具——GiantHunter,这款工具由香港城市大学孙燕妮课题组的博士生商家煜开发,专为解决宏基因组中巨病毒识别难题而设计,非常值得推荐!
巨型病毒属于双链DNA病毒的一部分,被统称为核质大DNA病毒(Nucleocytoplasmic Large DNA Viruses, NCLDVs),系统分类上归入病毒门 Nucleocytoviricota。该门病毒具有高度的宿主多样性,可感染从最小的单细胞真核生物(如领鞭毛虫)到多细胞动物在内的多种真核宿主。NCLDVs 的复制通常在宿主细胞质中构建的“病毒工厂”中进行,部分成员也可利用宿主细胞核进行复制和子代组装。
NCLDVs 的一个显著特征是其粒子尺寸和基因组大小的高度扩展性:基因组范围从约 70 kb 到超过 2.5 Mb 不等,病毒粒子长度可达 2 μm,是目前所知最大尺寸的病毒粒子之一。术语“巨型病毒”(Giant Virus)最早可追溯至20世纪90年代,用于描述感染藻类、具有异常大基因组的病毒。

Github:
https://github.com/FuchuanQu/GiantHunter
数据库:
https://github.com/FuchuanQu/GiantHunter/releases/download/v2.0/gianthunter_db_v1.zip
软件安装
# 从Github下载源码
git clone https://github.com/FuchuanQu/GiantHunter.git
# 进入目录
cd GiantHunter/
# 使用conda从创建虚拟环境
conda env create -f GiantHunter.yaml -n GiantHunter
# 激活环境
conda activate GiantHunter
# 安装GiantHunter,GiantHunter本质是一个python模块,可以使用pip安装
pip install .
# 检查是否安装成功
gianthunter -h
# 下载数据库并解压
wget -c -nv https://github.com/FuchuanQu/GiantHunter/releases/download/v2.0/gianthunter_db_v1.zip
unzip gianthunter_db_v1.zip注:
1.小编的安装方法和作者在Github上提及的方法有所不同,因为小编习惯将每个软件单独创建一个虚拟conda环境。作者在Github上提及到的方法将GiantHunter和PhaBOX 2安装在一起,因为这两个软件都是一个团队开发的,两款软件依赖的软件相同;
2.如果小伙伴们在运行GiantHunter中缺少相关的python模块,可使用pip进行安装;
3.如果数据下载太慢,小伙伴们可以使用浏览器下载数据库,然后传到服务器上,此外一些小伙伴无法科学上网,作者也将数据库传到百度网盘上,小伙伴也可以通过百度网盘进行下载,百度网盘下载如下:
https://pan.baidu.com/s/1YJBaXA0OmvUfXEK8QEnkDg
pwd:jrif# 查看软件帮助
gianthunter -h
usage: gianthunter [-h] [--contigs CONTIGS] [--proteins PROTEINS] [--len LEN] [--threads THREADS] [-d DBDIR] [--midfolder MIDFOLDER] [-o OUTPTH] [--reject REJECT] [--query_cover QUERY_COVER]
GiantHunter is a python library for identifying NCLDVs from metagenomic data. GiantHunter is based on a Transorfer model and relies on protein-based vocabulary to convert DNA sequences into sentences.
optional arguments:
-h, --help show this help message and exit
--contigs CONTIGS FASTA file of contigs
--proteins PROTEINS FASTA file of predicted proteins (optional)
--len LEN minimum length of contigs
--threads THREADS number of threads to use
-d DBDIR, --dbdir DBDIR
database directory (optional)
--midfolder MIDFOLDER
folder to store the intermediate files
-o OUTPTH, --outpth OUTPTH
name of the output folder
--reject REJECT threshold to reject contigs with a small fraction of proteins aligned.
--query_cover QUERY_COVER
The QC value set for DIAMOND BLASTP, setting to 0 means no query-cover constrain.参数 | 说明 |
|---|---|
--contigs CONTIGS | 输入的 contig 文件,格式为 FASTA |
--proteins PROTEINS | 可选,预测得到的蛋白质序列(FASTA 格式),加快软件运行时间 |
--len LEN | 可选,contig 的最小长度阈值,低于该长度的 contig 将被过滤,默认为3000 |
--threads THREADS | 可选,使用的线程数,可以使用 os.cpu_count() 设置为最大核数 |
-d DBDIR, --dbdir DBDIR | 数据库路径 |
--midfolder MIDFOLDER | 可选,中间文件的存储路径,有助于调试或重复使用中间结果 |
-o OUTPTH, --outpth OUTPTH | 指定输出结果路径 |
--reject REJECT | 可选,设置一个阈值,如果某 contig 上比对成功的蛋白占比低于此值,则剔除,默认为0.1 |
--query_cover QUERY_COVER | 可选,用于 DIAMOND BLASTP 的 query-cover 设置,默认为40 |
gianthunter --contigs NCBI.Virus.fna --len 2000 --threads 16 --query_cover 40 --dbdir db --out GiantHunter示例数据来源:小编在NCBI virus:https://www.ncbi.nlm.nih.gov/labs/virus/vssi/#/随机选取一些巨型病毒和噬菌体序列作为模拟数据,模拟数据获取方法,关注公众号,后台回复后台回复关键字【GiantHunter】 (不含中括号哟),建议粘贴复制,避免出错。
1.结果目录

结果解读:
gianthunter_prediction.tsv————记录了每个 contig 的预测得分和判定结果2. gianthunter_prediction文件内容如下图所示
