Bowtie2 支持间隔,局部和双端对齐模式。可以同时使用多个处理器来极大的提升比对速度。 如果目的是对齐两个非常大的序列(例如两个基因组),请考虑使用MUMmer。 genome_index 需要指定路径及其共用文件名,比如我的索引文件放在/data/ref/bowtie2/mm10目录下,但是需要输入的参数为/data/ref/bowtie2/mm10/mm10。 bowtie2在当前目录中首先查找指定的索引,然后在BOWTIE2_INDEXES环境变量中指定的目录中查找。 如果-指定,bowtie2将从“标准输入”或“标准输入”文件句柄中读取队友2。 索引文件 bowtie2-build mm10.fa mm10 运行bowtie2 获取 SAM 文件 bowtie2 -p 6 -3 5 --local -x mm10 -1 example_1.fastq
bowtie2 以前都是和samtools组合,如下: bowtie2 -x $index -U $id | samtools sort -@ 4 -o $sample.bam - 运行速度很慢,现在有高效工具啦 samblaster主页) -r --removeDups 去掉重复(-e --excludeDups类似) --addMateTags 添加MC and MQ tags -M 与bwa mem -M 类似 命令组合 bowtie2
2. bowtie2:将经过质控的 Clean data 比对到参考基因组上,得到比对文件(BAM格式)。 3. picard:去除 BAM 文件中的 PCR 重复。 MultiQC:汇总 fastp,bowtie2 以及 macs2 的统计结果。 输出结果 fastp 输出: • 质控结果 HTML (对照) • 质控结果 HTML (实验) bowtie2 输出: • 比对统计(对照) • 比对统计(实验) picard 输出: • 去重后的 BAM (对照) • 去重后的 BAM (实验) macs2 输出: • 峰值文件(Narrow Peaks) MultiQC 输出: • 统计结果汇总 HTML(来源于 fastp,bowtie2,macs2 ) 注意事项 本流程采用 bowtie2 作为比对工具,目前 Galaxy 平台上构建了常见物种基因组的 bowtie2 索引文件,如果您需要的基因组索引不存在,欢迎联系我们添加。
给变量赋值为某个对象 bowtie2=/root/biosofts/bowtie2/bowtie2-2.2.9/bowtie2 $bowtie2 # 调用变量 2)使用alias。类似于快捷方式。 alias bowtie2=/root/biosofts/bowtie2/bowtie2-2.2.9/bowtie2 # 给变量简称 bowtie2 # 调用变量 3)添加环境变量。 export PATH="$PATH:/root/biosofts/bowtie2/bowtie2-2.2.9/" # 需要在 /.bashrc 中添加。 这时候,在任意位置都可以使用bowtie2 啦。但需要注意的是,在环境变量中提过,这种方式在重新连接服务器后会失效。因此我们可以尝试第二种。 这里还提供一种方式。可以修改.bashrc文件。
创建并进入文件夹 mkdir bowtie2 && cd bowtie2 版本 软件安装提供了各种版本,因此需要注意合适的版本选择。 filezilla 下载了bowtie(一个短序列比对工具),并将它存放在了biosofts/bowtie2目录下。 (没有添加环境),通过调用,我们可以看到bowtie2 的使用说明。 /root/biosofts/bowtie2/bowtie2-2.2.9/bowtie2 # 我的路径 # 如果不把bowtie2 文件添加到PATH中,则需要通过相对路径或绝对路径调用软件 阅读帮助文件 bowtie2 --help ## 帮助文件,且我已经设定了bowtie 的alias。 bowtie2 --version ## 查看版本。 bowtie2 是一个用于短序列比对的工具。
使用的工具包括bowtie2、samtools和deepTools。bowtie2的索引文件位于“../data/indx/bowtie2_whole_genome/”文件夹中,前缀为“hg38”。 Tools to use: bowtie2, samtools, and deepTools. The index for bowtie2 is in the folder “.. "ENCFF000AVS_1m.fastq.gz" FASTQ2="ENCFF000AVS_10m.fastq.gz" # Align reads to reference genome using bowtie2 bowtie2 -p $CPUS -x $INDEX -U $FASTQ1 | samtools sort -@ $CPUS -o ENCFF000AVS_1m.bam bowtie2 -p $CPUS
/biosoft/bowtie2/bowtie2-2.2.9/bowtie2-align-l . /biosoft/bowtie2/bowtie2-2.2.9/bowtie2-align-l-debug . /biosoft/bowtie2/bowtie2-2.2.9/bowtie2-align-s . /biosoft/bowtie2/bowtie2-2.2.9/bowtie2-align-s-debug . /biosoft/bowtie2/bowtie2-2.2.9-linux-x86_64.zip 3 按文件类型 文件类型 find + 文件目录 + -type + d/f/b/c/s/p/l $
chipseq/ 创建分析目录 $ mkdir raw_data reference_data scripts logs meta $ mkdir -p results/fastqc results/bowtie2 Bowtie 比对 Bowtie2是一种快速准确的对齐工具,它使用基于 Burrows-Wheeler 变换方法的 FM 索引对基因组进行索引,以保持对齐过程的内存要求较低。 Bowtie2支持间隙、局部和双端对齐模式,最适合至少 50 bp 的读取(较短的读取长度应使用 Bowtie1)。默认情况下, Bowtie2将执行全局端到端读取对齐,这最适合质量修剪的读取。 # Run bowtie2 cat ${ID} | parallel \ bowtie2 -p 6 -q --local -x ${genome} -U {}.fastq -S $ Nanog-rep2-macs2.log $ macs2 callpeak -t bowtie2/H1hesc_Pou5f1_Rep1_aln.bam -c bowtie2/H1hesc_Input_Rep1
安装本次实践需要的软件,包括 fastqc(0.11.5), sra-tools(2.8.1), bowtie2(2.3.2), samtools(1.5), MACS2(2.1.1.20160309) 然后用fastqc看数据质量 ls *fastq|xargs fastqc -t 10 用Bowtie2将fastqc结果比对到mm10基因组上去 bowtie2 -p 6 -3 5 - /data/SRR620206.fastq| samtools sort -O bam -o suz12.bam bowtie2 -p 6 -3 5 --local -x ~/reference/ /data/SRR620208.fastq| samtools sort -O bam -o IgGold.bam bowtie2 -p 6 -3 5 --local -x ~/reference 大小和原文已经不一样,可能是index,bowtie2版本不同有关。 ?
Bowtie2 比对 CUT&Tag 插入文库的构造,采用 Tn5 适配器和带有条形码的 PCR 引物,具体如下所示: 常规操作是在一个 HiSeq 2500 测序通道中,对最多 90 个混合样本进行单索引 alignment/bam mkdir -p ${projPath}/alignment/bed mkdir -p ${projPath}/alignment/bedgraph ## Build the bowtie2 reference genome index if needed: ## bowtie2-build path/to/hg38/fasta/hg38.fa /path/to/bowtie2Index/hg38 bowtie2 {histName}_bowtie2.sam &> ${projPath}/alignment/sam/bowtie2_summary/${histName}_bowtie2.txt 双端读数使用 Bowtie2 比对总结 Bowtie2 的比对结果概要会存储在 {projPath}/alignment/sam/bowtie2_summary/{histName}_bowtie2.txt 文件中,您可以看到类似的结果
/activate conda install -c bioconda -y fastqc bowtie2 samtools bedtools picard deepTools multiqc conda ## bowtie2 GRCh38 $ref #N7_PC组是postive control: H3K4me3 #N8_NC组是negative control: IgG for histName in GRCh38 and E.coli 在bowtie2 比对的时候需要构建索引 #homo spices 建索引 #下面有建好的索引我就直接用了,因为建索引所需资源比较多,时间长。 hg38" echo Job started at `date` bowtie2 --end-to-end --very-sensitive --no-mixed --no-discordant - end" ## Bowtie2 Ecoli echo "$histName Bowtie2 Ecoli" echo Job started at `date` bowtie2 --local --
bowtie2建立rRNA索引 bowtie2-build hg38_rRNA.fasta hg38_rRNA 这个时候的比对工具的选择,并不一定要bowtie2软件哈。 使用bowtie2去除rRNA,重点--un-conc-gz参数。查阅hisat2的帮助文档,发现有同样的参数,所以可以用hisat2完成同样的操作。 index=/data/reference/index/bowtie2/hg38_rRNA/hg38_rRNA bowtie2 -x ${index} --un-conc-gz SRR6236728_rmrRNA.fq.gz 1 SRR6236728_1_val_1.fq.gz -2 SRR6236728_2_val_2.fq.gz -p 6 | samtools sort -o tmp.bam - rm tmp.bam bowtie2
tair10.sam 2>bwa.log 二、split比对 针对人基因组RNA-Seq,read跨越外显子,此时要使用支持切除read的软件,例如tophat2,升级的hisat2.而bowtie2 #bowtie2与hisat2比较 ln -s /share/home/xiehs/07.aligment/data/chrX.fa . bowtie2-build chrX.fa chrX bowtie2 2.fastq.gz -S hisat2.sam 2> hisat2.log bowtie2.sam 680M hisat2.sam 737M hisat2支持split比对,可以看到文件大小比bowtie2
trim-galore deeptools qualimap conda install -y -c bioconda bwa samtools bedtools sambamba sra-tools bowtie2 samblaster 下载参考基因组 这里一步到位下载bowtie2的参考基因组:http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml wget 使用bowtie2和samblaster一步到位的干净比对 命令很简单 bowtie2 -x $index -U $id | samblaster -e -d $sample.disc.sam -s $ sample=$(basename $id "_trimmed.fq.gz") echo $sample; if((i%$number1==$number2)) then bowtie2 ;do(samtools sort -o ${id%%.*}_sort.bam $id);done ls *.bam |xargs -i samtools index {} ## 实际上可以直接 bowtie2
基本信息 information 环境: Ubuntu arrch64 GNU/Linux 软件版本号: conda 23.5.2 trimmomatic (0.39) bowtie2 (2.5.1) 使用Bowtie2 去除宿主序列 Removing host sequences with Bowtie2 可以使用bowtie2 -h命令查看使用帮助,得到如下反馈。 bowtie2 [options]* -x <bt2-idx> {-1 <m1> -2 <m2> | -U <r> | --interleaved | -b <bam>} [-S <sam>] 参数解读 -x <bt2-idx>:指定Bowtie2索引的路径和前缀,用于比对。
软件选择: 比对工具:Bowtie2 是目前最经典、最高效的短序列比对工具之一,非常适合用于去宿主任务。 自动化流程:KneadData。 这是一个由Huttenhower实验室开发的优秀流程工具,它将质控工具Trimmomatic和比对工具Bowtie2等巧妙地封装在一起,可以用一条命令自动化完成“质控+去宿主”的完整流程,并生成清晰的报告 第一步:下载宿主参考基因组并构建索引 要让Bowtie2认识宿主,我们首先需要提供宿主的参考基因组,并为它构建“索引”。索引就像一本书的目录,能让Bowtie2极速查找到匹配的序列。 这些文件就是Bowtie2进行比对的依据。 第二步:运行 KneadData 去除宿主序列 现在,万事俱备,我们可以召唤 KneadData 了。 或许我可以更早的使用Claude code,从 Bowtie2 建立索引开始,就让它生成完整流程。我们专注于策略思考,它负责精准执行,让人机协作的价值最大化,事半功倍。
首先赋值: bowtie2=bowtie2命令所在路径 B. 使用时: $bowtie2 第二种方法: A. 使用 alias bowtie2=bowtie2命令所在路径 B. 使用时:bowtie2 第三种方法: A. 修改环境变量 echo $PATH export PATH="bowtie2命令所在路径/bin:$PATH" >>~/.bashrc source ~/.bashrc 2、bowtie2的使用: 比对: bowtie2 -x 索引文件前缀 -1 短序列文件(.fq文件) -2 短序列文件(.fq文件) -S 输出的.sam文件 bowtie2 -x 索引文件前缀 -U 长序列文件(.fq文件) =~/biosoft/bowtie2/bowtie2-2.3.4.3-linux-x86_64/bowtie2 #每次打开终端都需要重新设置 $bowtie2 2) 修改配置文件中的环境变量 vim ~
share fastq文件转化为fasta(使用seqtk) seqtk seq -a input.fastq > output.fasta 使用到的软件 wgsim (模拟生成fastq文件) bowtie2 008253.fna reads_1.fastq reads_2.fastq -N 参数用来指定reads的数量 -1, -2 用来指定双端reads的长度 还有其他参数可以空运行命令来查看 第二步:使用bowtie2 将reads比对到参考基因组 bowtie2-build NC_008253.fna Ecoli bowtie2 -x Ecoli -1 reads_1.fastq -2 reads_2.fastq - S Ecoli.sam 第一个文件 NC_008253.fna 是参考序列的文件名 第二个 Ecoli 是为构建的索引起一个名字,下一步bowtie2比对时 -x 参数后接的就是这个名字 ? 比对(双末端测序数据) bowtie2-build Malus_baccata.fasta Malus_baccata bowtie2 -x Malus_baccata -1 reads_1.fastq
索引文件# 构建hg38的bowtie2索引文件mkdir -p index/bowtie2/hg38_res# --threads设置线程数bowtie2-build ${path}/reference /hg38/hg38.fa ${path}/index/bowtie2/hg38_res/hg38 --threads 8# check一下ls . | while read id; do bowtie2 -p 8 -x ${bowtie2_index} -U ${path}/clean/${id}.fq.gz | samtools sort - bowtie2 -p 8 -x {path}/clean/:使用对指定的单端序列文件进行比对。:指定使用个线程进行比对。{bowtie2_index}:使用预先准备的索引进行比对。 | samtools sort -O bam -@ 8 -o -:将 bowtie2 的输出(默认为 SAM 格式)通过管道传递给 samtools sort。-O bam:指定输出格式为 BAM。
此次,我们先去文中提到的网址下载rRNA序列,然后使用bowtie2进行比对。 比对: mkdir bowtie2 # 换成自己的路径,注意index为索引前缀 index=/path/rRNA_index/Mus_musculus.rRNA od=/path/bowtie2 后续更新~ 在上一期中我们得到了cleandata后,先使用bowtie2与NCBI的rRNA的序列进行比对,进行了去除rRNA序列的步骤,得到了去除rRNA之后的数据如下: ? # 首先处理得到sampleID,也可以直接从ENA的那个表格中提取出来 ls -1 bowtie2/*gz | cut -d'/' -f 2 |cut -d'.' /bowtie2 outdir=.