首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信菜鸟团

    转录数据比对hisat2-6

    生信技能树学习笔记 比对过程: • 1.建索引 • 2.比对参考基因 • 3.sam转bam 用到的软件——Hisat2 Hisat2主要是用来进行转录数据的比对。 hisat2主要参数: ## ----构建索引# 进入参考基因目录cd $HOME/database/GRCh38.105# Hisat2构建索引,构建索引时间比较长,建议提交后台运行,一般会运行20 多个样本比对 这里需要用到管道符|串联 比对参考基因 和 sam转bam两个步骤 这里的2代表下面这个程序中输出的过程,并将其重定向到样本对应的log文件中 关注点: • 总比对率:一般都能在80%以上 fq.gz -2 ${inputdir}/${id}_2_val_2.fq.gz 2>${id}.log | samtools sort -@ 3 -o ${outdir}/${id}.Hisat_aln.sorted.bam 我要看FLAG 99是什么意思:samtools flags 99 0x63 99 PAIRED,PROPER_PAIR,MREVERSE,READ1 0x63 只能由0x1,0x2,0x20和0x40

    62110编辑于 2024-07-10
  • 转录day2

    Note:人类物种GC含量范围:40%-60%GC含量异常:可以排查数据中是否存在大量的核糖体rna序列,核糖体rna序列过多意味着测到的数据中有效数据含量少,不能满足后续分析Per base N contentN 转录数据:本身存在一定的read重复,qc报告非常容易出现警告或者红色xx,应该看具体的重复率,但重复率不应该过高比如超过70%。 Overrepresented sequences过表达的reads可能存在的情况:(原始数据存在接头的可能性高,可以看过滤后的数据qc报告)1.来自高表达基因的片段,具有生物学意义2.来自污染序列,导致文库中的这个序列比例异常高 3.文库检测到的序列多样性不高,重复率高序列异常排查方向:1.随机抽取fq文件中的2000条read,去NCBI做 blast比对,看是否有污染其他物种2.过表达的read序列去做blast比对,查看其来源 killkill -9 %num:num为jobs命令返回IDkill -9 PID:ps fx或者htop可得到PID任务编号)① 提交任务:nohup bash trim.sh 1>trim.log 2>

    28810编辑于 2025-07-02
  • 来自专栏数据科学(冷冻工厂)

    空间转录: DLPFC数据集分析 (2)

    引言 本系列讲解 空间转录学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群! spe <- logNormCounts(spe) assayNames(spe) ## [1] "counts" "logcounts" 特征选择(HVGs) 应用特征选择方法以识别一顶级高变异基因 我们还在前 50 个 PCs 上运行 UMAP,并保留前 2 个 UMAP 成分用于可视化。 # update column names for plotting colnames(reducedDim(spe, "UMAP")) <- paste0("UMAP", 1:2) 聚类 接下来, store cluster labels in column 'label' in colData colLabels(spe) <- factor(clus) 通过在X-Y空间中绘制群集标签,并与该数据集可用的手动注释参考标签

    15810编辑于 2025-11-19
  • 来自专栏数据科学(冷冻工厂)

    空间转录: Visium HD 数据集分析 (2)

    引言 本系列讲解 空间转录学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群! QC 质量控制 我们使用 SpotSweeper 对子集化的 16 µm 数据进行质量控制。 direction="up") # select for a few markers per cluster top <- lapply(mgs, \(df) rownames(df)[df$Top <= 2] visualize averages z-scaled across clusters pheatmap( mat=t(assay(pbs)), scale="column", breaks=seq(-2, 2, length=101), cellwidth=10, cellheight=10, treeheight_row=5, treeheight_col=5) 或者,我们可以可视化空间中选定标记的

    22510编辑于 2025-11-19
  • 来自专栏生信菜鸟团

    转录准备工作-2

    生信技能树学习笔记 书接上回,转录测序完成后会得到FASTQ文件。 如下图所示: 其中,_1和_2代表同一个样本的双端测序,一端一个文件。 在转录组分析中用到的命令 分析目录——目录管理 规律的存放文件有利于查找,追溯。 建立目录的具体代码: # 进入到个人目录 cd ~ ## 1.建立数据库目录:在数据库下建立参考基因数据库,注意命名习惯:参考基因版本信息 mkdir -p database/GRCh38.105 ## 2.建立项目分析目录 mkdir project cd project mkdir Human-16-Asthma-Trans # 注意项目命名习惯:物种-样本数-疾病-分析流程 cd Human # 建立比对目录 mkdir -p Mapping/Hisat2Mapping/Subjunc # 建立定量目录 mkdir -p Expression/featureCountsExpression

    33110编辑于 2024-07-10
  • 来自专栏生信菜鸟团

    转录数据过滤-4

    生信技能树学习笔记 数据过滤条件 测序得到的原始序列含有接头序列或低质量序列,为了保证信息分析的准确性, 需要对原始数据进行质量控制,得到高质量序列(即Clean Reads),原始序 列质量控制的标准为 : (1) 去除含接头的reads; (2) 过滤去除低质量值数据,确保数据质量; (3) 去除含有N(无法确定碱基信息)的比例大于5%的reads;(可以根据实际情况) 数据过滤-trim_galore 3 --stringency 3 --fastqc --paired -o ${cleandata} ${rawdata}/${name}_1.fastq.gz ${rawdata}/${name}_2. fastq.gzdone 任务管理 1.任务投递: 前台运行:直接运行 后台运行:nohup,& 前台转后台/后台转前台:bg/fg 2.终止任务: 暂停:Ctrl+Z 终止:Ctrl+C,kill 前台运行命令 暂停命令 Ctrl+Z 查看命令ID 前台转后台 杀程序 后台:Kill -9 %1 前台:Ctrl+C 如何检查脚本内容:echo命令 使用echo将命令打印出来查看是否变量等有错误 数据过滤数据过滤

    61110编辑于 2024-07-10
  • 来自专栏空间转录组数据分析

    10X空间转录数据分析汇总2

    文章大家可以好好看看,我在这里重点讲述分析方法,首先,空间转录污染的问题,这个污染来源于周围spot转录本的弥散,去污的方法是SpotClean,这个方法我之前分享过,文章在10X空间转录去污染分析之 第四点,识别肿瘤转录的program,这也是文章中常见的分析内容,一般我们采用WGCNA或者NMF寻找,但是这是偷懒的方法,作者就做的非常精细。 For each cluster, we retained the top 50 marker genes based on log2FC. correlation coefficients were visualized by ComplexHeatmap64 R package (v2.0.0).图片当然,最终的模块结果跟形态学是匹配的,这也是空间转录需要告诉我们的信息 图片第五点,解卷积分析,这里也提醒我们,如果没有匹配的单细胞数据来运用的话,可以借助数据库的单细胞数据。分析niche的时候判断细胞类型的分布差异。这个地方就为生态位通讯提供了依据。

    90140编辑于 2023-04-07
  • 来自专栏小明的数据分析笔记本

    Hisat2StringTieBallgown转录数据分析实例(拟南芥)

    paired-rnaseq.html 下载数据 直接利用参考文章里的shell脚本 SEQLIBS=(SRR8428909 SRR8428908 SRR8428907 SRR8428906 SRR8428905 fastq.gz done 执行 bash download_raw_data.sh 数据对应的文章 https://www.ncbi.nlm.nih.gov/pubmed? 对数据进行过滤 SEQLIBS=(EE_Rep1 EE_Rep2 EE_Rep3 wt_Rep1 wt_Rep2 wt_Rep3) for seqlib in ${SEQLIBS[@]}; do done 下载参考基因和注释文件 wget ftp://ftp.ensemblgenomes.org/pub/plants/release-40/fasta/arabidopsis_thaliana (pc$x[,1])+2),ylim=c(min(pc$x[,2])-2,max(pc$x[,2])+2),col=point_colors) text(pc$x[,1],pc$x[,2],pos=2,

    4.2K10发布于 2020-03-19
  • 来自专栏生信技能树-R

    转录数据分析-比对

    ·1.参考基因准备·2.比对:Hisat2 Salmon1.参考基因准备参考基因数据库常用参考基因数据库Ensembl:www.ensembl.org #用得最多数据库完善有基因对应的IDNCBI Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz-rw-rw-r-- 1 Mar402 Mar402 139091 Apr 23 16:51 wget-log# 下载转录序列 format)格式,即序列比对文件格式,详细介绍见:http://samtools.github.io/hts-specs/SAMv1.pdf BAM是SAM的二进制文件(B源自binary) #PPT转录 值的理解# (0x100) 代表着多比对情况,所以直接用samtools view -f 0x100可以提取 multiple比对的 情况-----来自于生信技能树------(大概估计)10个样本 转录估算使用空间 :一个样本1.5G大小 *101、质控:cleandata 1.5GG*102、比对: sam 13G10 2(膨胀),bam 2G*10共约 410G简单粗暴 转录数据多大*4~6倍

    92600编辑于 2023-05-09
  • 来自专栏生信技能树

    python读取空间转录数据

    上一期我们学习了使用python读取不同的单细胞数据:python版读取不同的单细胞数据格式(单样本与多样本),今天来看看使用python读取空间转录数据。 0.示例数据准备 此次教程分析使用数据:10x官方的Mouse Brain (Coronal) Visium dataset数据集。 pathlib import Path import os os.environ["PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION"] = "python" # 读取数据 st.tl.clustering.louvain(data_SME, resolution=1.19) st.pl.cluster_plot(data_SME,use_label="louvain") 2. significantly faster, especially for larger datasets sc.tl.leiden(adata, flavor="igraph", n_iterations=2)

    53502编辑于 2025-03-06
  • 来自专栏生信菜鸟团

    转录数据质量评估-3

    生信技能树学习笔记 数据质量评估 FastQC软件可以对fastq格式的原始数据进行质量统计,评估测序结果,为下一步修剪过滤提供参考。 FastQC主页:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ fastqc的常用参数 1.参数大小写敏感 2.参数两种形式 • 长参数 fastqc运行 目标:使用fastqc对原始数据进行质量评估 # 激活conda环境 conda activate rna # 连接数据到自己的文件夹 # 如果上面做习题的时候已经链接过来,无需再次链接 指输出到当前文件夹 *是通配符 • nohup:no hang up(不挂起),退出终端不会影响程序的运行 • &:后台运行 # 使用MultiQc整合FastQC结果 multiqc *.zip -o ./ 下载数据查看结果

    45510编辑于 2024-07-10
  • 来自专栏R语言&linux

    转录测序分析——差异表达分析2

    1.功能注释2.功能富集rm(list = ls())options(stringsAsFactors = F)library(clusterProfiler)library(org.Hs.eg.db) library(GSEABase)library(ggplot2)library(tidyverse)## Error in download.KEGG.Path(species)# https://github.com ="normal",2]DEG <- as.character(na.omit(DEG))head(DEG)## ===GO数据库, 输出所有结果,后续可根据pvalue挑选结果ego_CC <- enrichGO <- dotplot(ekegg, showCategory=10,label_format=100)plotc = p1/p2plotcggsave('result/6.enrichKEGG.png' width = 8, height = 10)ekegg <- data.frame(ekegg)write.csv(ekegg,'result/6.enrichKEGG.csv')## === 其他数据库通路

    51210编辑于 2023-11-03
  • 来自专栏HUBU生信

    tophat2+cufflinks转录测序实例(2)——原始数据的处理

    [tophat2+cufflinks转录测序实例——原始数据的获取] (http://www.biocoder.cn/content/62/) 我们在NCBI上获取的数据 要想把下载的原始数据以sra 格式结尾的文件给tophat2识别并进行比对,就要将sra格式解压为fastq格式 SRA toolkit 代码如下 fastq-dump --split-files SRR5399538.sra 将 4个sra文件分别解压为fastq文件 2.利用bowtie2建立参考基因的索引 代码如下 bowtie2-build GCA_000009725.1_ASM972v_genomic.fna GCA_

    1.1K20发布于 2018-12-27
  • 来自专栏生信技能树

    转录数据拼接之应用篇

    前前后后接触了一些基因转录拼接的工作,而且后期还会持续进行。期间遇到了各种各样莫名其妙的坑,也尝试了一些不同的方法和软件,简单做一个阶段性小结。 trinityrnaseq/trinityrnaseq/wiki 相关文献: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3571712/ Trinity是目前最常用的转录拼接软件 against proteins or transcripts from a related species and inspecting the alignments 这里我们主要使用前两个功能,如果是有参转录的拼接 但如果是为了查看新的转录本,进行第三项评估也没有太大意义。针对转录拼接而言,第一步中各种长度的统计结果意义也不大,只有回帖率这个指标是最重要的。 至此,已经完成了常规的转录拼接工作,可以进行更多的后续分析。比如基因结构注释等等。

    3.8K60发布于 2018-03-05
  • 来自专栏数据科学(冷冻工厂)

    空间转录:从R导入数据

    引言 本系列讲解 空间转录学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群(你懂的)! 平面文件结构 目前,不同商业供应商提供的空间转录学平台的数据,其文件结构和格式各不相同。 不过,这些数据在本质上是相似的,比如:基于测序的数据都包含阵列点的空间位置和计数矩阵;基于成像的数据则包括转录本位置(通过点呼叫得到)、多边形边界(通过分割得到)以及计数矩阵(通过将转录本分配到细胞得到 Visium(10x Genomics) 在 Visium 数据上运行 Space Ranger(10x Genomics 提供的数据处理软件)会生成一标准化的输出文件。 SpatialExperimentIO 提供了多种基于成像的空间转录学平台的读取器,涵盖了 CosMx(Bruker)、Xenium(10x Genomics)、MERSCOPE(Vizgen)和 seqFISH

    65400编辑于 2025-07-02
  • 来自专栏生信技能树-R

    转录数据分析- Raw data

    图片 转录概述 图片 图片 图片 图片 图片 图片 图片 上机测序完成之后得到的测序数据为FASTQ文件 图片 Linux 复习 图片 准备工作-目录管理 图片 # 进入到个人目录 cd ~ ## 1.建立数据库目录:在数据库下建立参考基因数据库,注意命名习惯:参考基因版本信息 mkdir -p database/GRCh38.105 ## 2.建立项目分析目录 mkdir project cd project mkdir Human-16-Asthma-Trans # 注意项目命名习惯:物种-样本数-疾病-分析流程 cd Human-16-Asthma-Trans # 建立数据存放目录 └── Subjunc Fastq 数据介绍 # 连接数据到自己的文件夹 cd $HOME/project/Human-16-Asthma-Trans/data/rawdata ln -s /home /t_rna/data/airway/fastq_raw25000/*gz ./ 图片 图片 fastq数据第四行 图片 碱基识别出错的概率映射值Q值与FASTQ数据中储存:F怎么转换 图片 (例如Q

    1.1K40编辑于 2023-04-10
  • 来自专栏数据科学(冷冻工厂)

    空间转录数据格式介绍

    简介 Bioconductor 提供了多种数据类,用于存储和处理空间(转录数据集。这些统一的数据结构使得可以方便地将不同研究团队开发的方法和软件包整合起来,构建出包含最新先进方法的分析流程。 接下来,介绍本系列中用到的 Bioconductor 数据类。 文件格式 空间(转录学的检测手段以及由此获取的数据类型丰富多样。而且,不同的供应商在分发数据时采用的文件格式也不尽相同。 数据类 在基于测序的空间转录学(ST)数据里,数据呈现为转录本 - 位点计数矩阵的形式,每个位点还附带空间坐标信息。 经过细胞边界的分割和转录本到细胞的映射后,这些数据可以被转换成类似单细胞学技术数据转录本 - 细胞计数矩阵。 MoleculeExperiment MoleculeExperiment(ME)是专门针对基于成像的空间转录数据设计的。

    71810编辑于 2025-06-11
  • 空间转录数据库汇总

    作者,Evil Genius分享一个数据库,CROST, CROST应用标准化处理流程整合了182个高质量的空间转录数据集,涵盖8个不同物种、35种组织类型和56种疾病的1033个子数据集。 CROST通过集成空间转录、经典转录、表观基因和基因数据全面阐明了肿瘤相关SVG,是用户(尤其是临床医生)快速评估特定癌症类型中基因表达水平、甲基化水平、拷贝数变异以及预后的宝贵工具。 CROST还开发了一个专为空间转录组分析而设计的一站式分析平台,旨在帮助用户即使不具备任何编程技能也可进行空间转录组分析。 该数据库包含了4个模块,即1、Browse module即数据的查询2、Cancer SVG moduleCancer SVG模块显示了主要富集于肾癌(8323个基因)、肝癌(6380个基因)和黑色素瘤 SPASCER数据库,SPASCER数据库是一个新的空间转录数据库,包含43个研究的1082个数据集,旨在帮助理解组织异质性,组织微环境以及跨组织结构的细胞间相互作用,网址在https://ccsm.uth.edu

    1.3K20编辑于 2024-04-27
  • 来自专栏生信修炼手册

    STAR:转录数据比对工具简介

    STAR是一款RNA_seq数据专用的比对软件,比对速度非常快,最大的优势是灵敏度高,GATK推荐采用STAR比对,然后进行下游的SNP分析。 官方推荐基因的fasta采用primary_assembly版本, 不应该包含alt_scaffold和patches。 单端数据比对的基本用法如下 STAR \ --runThreadN 20 \ --genomeDir hg19_STAR_db \ --readFilesIn reads.fq \ --sjdbGTFfile hg19.gtf \ --sjdbOverhang 149 \ --outFileNamePrefix sampleA \ --outSAMtype BAM SortedByCoordinate 双端数据比对的基本用法如下 ,重新构建一次基因的索引,添加所有样本的SJ.out.tab文件,然后利用新的基因索引重新比对。

    6.3K42发布于 2020-05-08
  • 来自专栏Linux基础入门

    单细胞转录 | 数据降维

    前言 在对单细胞转录数据标准化之后,需要对数据进行降维。 那么降维的目的是什么呢? install.packages('Seurat') install.packages('dplyr') install.packages('tidyverse') install.packages('patchwork') 2. 设置工作路径 setwd("D:/sc-seq/BC21") 根据自己数据的存放位置自定义路径。 4. 读取数据数据为标准化后的数据。 RunPCA函数格式:RunPCA(object,features = NULL, npcs = 50,……) object:标准化后的Seurat对象; features:用来进行PCA的基因:为单细胞转录 下图中PC1解释最大的数据差异,PC2解释了第二大部分差异,PC3解释了第三大部分差异,以此类推…… 那么我们应该选择多少个PCs数才能代表数据的真实结构,进行后续分析呢?请接着往下看。

    1.1K40编辑于 2022-12-20
领券