首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 转录day2

    转录数据:本身存在一定的read重复,qc报告非常容易出现警告或者红色xx,应该看具体的重复率,但重复率不应该过高比如超过70%。 Overrepresented sequences过表达的reads可能存在的情况:(原始数据存在接头的可能性高,可以看过滤后的数据qc报告)1.来自高表达基因的片段,具有生物学意义2.来自污染序列,导致文库中的这个序列比例异常高 3.文库检测到的序列多样性不高,重复率高序列异常排查方向:1.随机抽取fq文件中的2000条read,去NCBI做 blast比对,看是否有污染其他物种2.过表达的read序列去做blast比对,查看其来源 当剪切结束后用默认选项对结果文件进行fastqc分析--max_n去除含有N碱基数大于n的序列技巧:用ParaFly并行任务,给你的分析提提速ref:https://mp.weixin.qq.com/s/Tfo4kqKChJjk2ZHdsWjyuw killkill -9 %num:num为jobs命令返回IDkill -9 PID:ps fx或者htop可得到PID任务编号)① 提交任务:nohup bash trim.sh 1>trim.log 2>

    28310编辑于 2025-07-02
  • 来自专栏生信菜鸟团

    转录准备工作-2

    生信技能树学习笔记 书接上回,转录测序完成后会得到FASTQ文件。 如下图所示: 其中,_1和_2代表同一个样本的双端测序,一端一个文件。 在转录组分析中用到的命令 分析目录——目录管理 规律的存放文件有利于查找,追溯。 建立目录的具体代码: # 进入到个人目录 cd ~ ## 1.建立数据库目录:在数据库下建立参考基因数据库,注意命名习惯:参考基因版本信息 mkdir -p database/GRCh38.105 ## 2.建立项目分析目录 mkdir project cd project mkdir Human-16-Asthma-Trans # 注意项目命名习惯:物种-样本数-疾病-分析流程 cd Human mkdir -pdata/rawdata data/cleandata/trim_galore data/cleandata/fastp # 建立比对目录 mkdir -p Mapping/Hisat2Mapping

    33110编辑于 2024-07-10
  • 来自专栏生信菜鸟团

    转录数据比对hisat2-6

    生信技能树学习笔记 比对过程: • 1.建索引 • 2.比对参考基因 • 3.sam转bam 用到的软件——Hisat2 Hisat2主要是用来进行转录数据的比对。 hisat2主要参数: ## ----构建索引# 进入参考基因目录cd $HOME/database/GRCh38.105# Hisat2构建索引,构建索引时间比较长,建议提交后台运行,一般会运行20 多个样本比对 这里需要用到管道符|串联 比对参考基因 和 sam转bam两个步骤 这里的2代表下面这个程序中输出的过程,并将其重定向到样本对应的log文件中 关注点: • 总比对率:一般都能在80%以上 fq.gz -2 ${inputdir}/${id}_2_val_2.fq.gz 2>${id}.log | samtools sort -@ 3 -o ${outdir}/${id}.Hisat_aln.sorted.bam 我要看FLAG 99是什么意思:samtools flags 99 0x63 99 PAIRED,PROPER_PAIR,MREVERSE,READ1 0x63 只能由0x1,0x2,0x20和0x40

    61810编辑于 2024-07-10
  • 来自专栏R语言&linux

    转录测序分析——差异表达分析2

    1.功能注释2.功能富集rm(list = ls())options(stringsAsFactors = F)library(clusterProfiler)library(org.Hs.eg.db) library(GSEABase)library(ggplot2)library(tidyverse)## Error in download.KEGG.Path(species)# https://github.com ="normal",2]DEG <- as.character(na.omit(DEG))head(DEG)## ===GO数据库, 输出所有结果,后续可根据pvalue挑选结果ego_CC <- enrichGO = 'hsa', pvalueCutoff = 1, qvalueCutoff = 1)p1 <- barplot(ekegg, showCategory=10,label_format=100)p2 <- dotplot(ekegg, showCategory=10,label_format=100)plotc = p1/p2plotcggsave('result/6.enrichKEGG.png'

    51210编辑于 2023-11-03
  • 来自专栏数据科学(冷冻工厂)

    空间转录: DLPFC数据集分析 (2)

    引言 本系列讲解 空间转录学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群! spe <- logNormCounts(spe) assayNames(spe) ## [1] "counts" "logcounts" 特征选择(HVGs) 应用特征选择方法以识别一顶级高变异基因 我们还在前 50 个 PCs 上运行 UMAP,并保留前 2 个 UMAP 成分用于可视化。 "UMAP" dim(reducedDim(spe, "PCA")) ## [1] 3614 50 dim(reducedDim(spe, "UMAP")) ## [1] 3614 2 # update column names for plotting colnames(reducedDim(spe, "UMAP")) <- paste0("UMAP", 1:2) 聚类 接下来,

    15810编辑于 2025-11-19
  • 来自专栏用户7627119的专栏

    空间转录

    近年来空间转录技术出现在人们的视野中,由于这项技术不仅能够获得转录的表达信息,同时还能对基因进行定位,因此受到研究者们的追捧。空间转录技术到底是什么?它有什么用?应该怎么用? 因此空间转录整合了基因表达和空间位置两种信息,实现对基因的定位。 ? 小鼠肾脏的空间聚类和基因表达 二、空间转录有什么用? 空间转录技术可以帮助我们更准确的了解疾病的病理信息;空间转录可以消除组织分离带来的偏差。 空间转录技术无需进行组织解离,避免了在解离过程中造成的细胞损伤;空间转录有助于异质组织中细胞类型的识别。 ? 空间转录可以保留组织和细胞的微环境信息 三、空间转录是怎么实现的? 实验流程 三、空间转录如何应用? 整合空间转录和单细胞转录揭示胰腺导管腺癌的组织结构 ?

    2.4K31发布于 2020-08-06
  • 来自专栏生信喵实验柴

    空间转录

    一、什么是空间转录? 空间转录,也称为 spatial gene expression,简称 ST-seq,是将转录学,单细胞测序技术以及组织切片技术结合起来的技术。 传统的转录可以得到基因的差异表达信息,单细胞转录提供了更高分辨率的基因表达信息,可以分辨出不同细胞的类型,而空间转录在此基础之上,还可以得到不同类型细胞的空间分布信息,分辨率进一步提高。 样品切片信息 切片+单细胞得到的空间转录 二、为什么要做空间转录? 空间转录将组织切片与转录测序结合,实现空间信息和转录本信息的获取。 四、空间转录组建库 由于空间转录相比于单细胞转录多了空间信息,因此 10X Visium 的实验可以分为两个板块——组织学板块和学板块。

    4.4K21编辑于 2023-02-24
  • 来自专栏R语言小白

    转录 - 比对

    生信技能树学习笔记 参考基因准备 常用参考基因 Ensembl asia.ensembl.org/index.html NCBI UCSC ## 进入参考基因目录 mkdir -p $HOME/database /GRCh38.105 cd $HOME/database/GRCh38.105 ## 下载基因 ## 一般选择primary assembly,没有的话可以选择toplevel nohup wget release-105/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz > dna.log & ## 下载转录序列 ENSMUSG ENSG 人默认没有物种前缀 比对 Hisat2, Subjunc 比对内容 建索引 比对参考基因 sam转bam Hisat2 主要参数 -x 索引文件的前缀 -1 双端测序结果的第一个文件 -2 双端测序结果的第二个文件 -U 单端数据文件 --rna 链特异性参数 -p 线程数

    1.9K20编辑于 2023-03-02
  • 来自专栏数据科学(冷冻工厂)

    空间转录: Visium HD 数据集分析 (2)

    引言 本系列讲解 空间转录学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群! direction="up") # select for a few markers per cluster top <- lapply(mgs, \(df) rownames(df)[df$Top <= 2] visualize averages z-scaled across clusters pheatmap( mat=t(assay(pbs)), scale="column", breaks=seq(-2, 2, length=101), cellwidth=10, cellheight=10, treeheight_row=5, treeheight_col=5) 或者,我们可以可视化空间中选定标记的 bin-wise 表达: gs <- c("MMP2", "PIGR", "IGHG1") ps <- lapply(gs, \(.) plotCoords(.vhd16, annotate=., point_shape

    22510编辑于 2025-11-19
  • 来自专栏生信技能树

    使用MuSiC以及MuSiC2来根据单细胞转录结果推断bulk转录细胞比例

    而TCGA等公共数据库数据库的转录测序数据毕竟是bulk转录测序,病人的肿瘤样品里面虽然是混合了各种各样的肿瘤微环境里面的基质细胞和免疫细胞,但是在数据层面被混杂成为了一个样品,并不是单细胞测序,所以并没有细胞比例信息 而现在各个疾病研究领域的单细胞转录公开数据多如牛毛,我们自己对单细胞转录数据的降维聚类分群和命名后的信息,如果可以用来推断bulk转录细胞比例会更加精准。 下面我们就介绍一下使用MuSiC以及MuSiC2来根据单细胞转录结果推断bulk转录细胞比例。 ,看起来就是普普通通的counts矩阵,虽然bulk转录矩阵存储成为了 ExpressionSet 对象,但是后续在使用MuSiC以及MuSiC2需要的都是从 ExpressionSet 对象里面拿到的普普通通的 /MuSiC2.html 用法还是蛮简单的,自己准备好单细胞转录矩阵以及bulk转录矩阵即可,运行的速度也是很快; 有了需要分解的单细胞亚群( delta gamma acinar ductal

    3.1K50编辑于 2023-02-28
  • 来自专栏生信菜鸟团

    转录概述-1

    生信技能树学习笔记 关于转录的综述 • A comprehensive evaluation of normalization methods for illuminating high-thoughput 转录组分析的几种策略 A和b是有参考序列的c是没有参考序列的物种,a是以基因为参考序列,b是以转录为参考序列。 测序原理 1.中心法则 2.转录是指所有RNA的转录本,可以是单个细胞也可以是一群细胞。 RNA分为编码和非编码RNA,非编码RNA又可以分为 RNA根据质量(A)和数目(B)排序,如下 主要在于建库方式有所不同,提取RNA对象不同 • mRNA:RNA-Seq,普通转录测序 • lncRNA 普通转录测序流程 1.RNA样品检测 高质量的RNA是整个项目成功的基础。

    43810编辑于 2024-07-10
  • 来自专栏生信技能树生信入门马拉松

    转录测序分析

    转录数据分析一般流程转录测序原理SBS(Sequencing-By-Synthesis):通过单分子阵列实现在小型芯片(Flowcell)上进行 桥式PCR反应。 通过可逆阻断技术实现每次只合成一个碱基,再利用四种带有不同荧光标记的碱基,通过荧光激发/捕获,读取碱基信息基于 可逆终止的、荧光标记dNTP,边合成边测序转录:组织或所有细胞中包含所有类型的RNA转录集合 mRNA: RNA-Seq,普通转录测序lncRNA:lncRNA-Seq,一般采用链特异性测序miRNA: miRNA-Seq,小RNA测序circRNA: cirRNA-seq,一般有两种,消化性线性 RNA建库或者去rRNA建库转录测序实验流程1. 2.

    72610编辑于 2024-06-27
  • 来自专栏R语言&linux

    转录——背景介绍

    一、转录概述图片综述:A survey of best practices for RNA-seq data analysis 图片图片转录测序原理中心法则图片图片图片mRNA测序实验流程图片测序的原理 :边合成边测序(SBS)linux命令复习图片图片图片图片目录管理#详细命令```bash# 进入到个人目录cd ~## 1.建立数据库目录:在数据库下建立参考基因数据库,注意命名习惯:参考基因版本信息 mkdir -p database/GRCh38.105 ##递归创建目录## 2.建立项目分析目录mkdir projectcd projectmkdir Human-16-Asthma-Trans mkdir -p data/rawdata data/cleandata/trim_galore data/cleandata/fastp# 建立比对目录mkdir -p Mapping/Hisat2    └── fastp│   └── rawdata├── Expression│   ├── featureCounts│   └── Salmon└── Mapping ├── Hisat2

    40830编辑于 2023-10-19
  • 转录——下游分析

    2)各种值的使用场合①差异表达分析:原始count值,算法输入要求(针对二代测序差异分析算法,算法内部一般有标化方法)。②标化后的值:基因表达值在样本与样本之间具有可比性。 是否内样本的重复性合格?是否前期设置的间可以分开? ——功能的富集分析1、功能富集分析的原因一基因直接注释的结果是得到大量的功能结点。 富集分析方法通常是分析一基因在某个功能结点上是否过出现(over- presentation)。由单个基因的注释分析发展到大基因集合的成组分析。和随机比较,关注的基因集显著注释的功能节点。 2、功能富集分析的统计方法-over-presentation(1)超几何分布及累积超几何分布(2)二项分布及累积二项分布(3)卡方检验或Fisher精确检验结果美化的专辑 #绘图小技巧20253、功能富集分析

    47900编辑于 2025-06-24
  • 转录 课前背景

    本篇内容引自生信技能树 一、课前背景 1、转录数据分析一般流程 2转录概述 (1)分析准备 课题实验设计、测序方案选择,不同数据质控点 (2)核心分析 表达定量、差异表达分析、功能层面解释 (3) 高级分析内容(自学) 可视化、其它RNA学、其它学联合分析 3、转录的几种分析策略 (a)有参考的DNA基因序列 (b)有参考的转录层面的RNA序列 (c)没有基因标准参考的序列 4、应用案例 (1)airway data(课上使用数据) (2)肺癌耐药关键gene筛选(课上实战案例) (3)非模式物种辣椒(课上实战案例) (4)非模式物种人参(课上实战案例) 5、转录测序原理——中心法则 基因学、转录、蛋白、代谢、表观(DNA上的遗传表观:甲基化、乙酰化;RNA上的表观调控)、互作(蛋白质之间,RNA之间,DNA序列和转录因子之间) 6、转录概念 (1)转录的概念 一群细胞或所有细胞里面的所有 $3}' | sed -e s/ID=gene://g -e s/biotype=/'\t'/g -e s/Name/'\t'/g > file2 8、转录测序实验流程图 (1)RNA样品检测 (2

    31010编辑于 2025-06-07
  • 转录——上游分析

    一、转录概述转录-课前背景二、准备工作——目录管理三、.FASTQ数据介绍以及QC转录-课前背景四、质控——数据质量评估1、FastQC软件FastQC主页:http://www.bioinformatics.babraham.ac.uk 5、trim_galore运行结果五、数据比对——参考基因准备1.基因文件:fasta2.注释文件:gff/gtf1、常用参考基因数据库Ensembl:www.ensembl.orgNCBI:https pub/release-113/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz >dna.log &# 下载转录序列 tr '@' '>' |tr '\t' '\n' |less -S五、数据比对——Hisat2,Subjunc1、Ensembl基因数据库①E:外显子;G:基因;T:转录本②基因ID和基因名字;转录本 ID和转录本名字;③可以在Ensembl基因数据库里直接搜某个基因名字和物种去查看它相应的转录本等等,这个也就是gtf文件所呈现的内容,即对fa文件的注释(基因的结构和信息)。

    56420编辑于 2025-06-12
  • 来自专栏全栈程序员必看

    转录测序火山图_转录差异基因筛选标准

    转录数据分析主要参考了生信技能树Jimmy老师的相关课程及推文。 RNA-seq的read count普遍认为符合泊松分布,但是之前分析过的芯片数据符合正态分布,所以筛选DEGs的方法有一定差别。 control1 untrt control2 untrt treat1 trt treat2 trt 6. < 0.05) #先筛选P值 up <- subset(diff,log2FoldChange > 2) #上调 down <- subset(diff,log2FoldChange < -2) #下调 BioMart网页工具的原始界面如下所示: 其中左侧菜单栏分别是Dataset--选择相关物种参考基因; Filters--选择数据gene ID的类型,并输入gene ID,也存在其他类型的 参考文件 [1] https://mp.weixin.qq.com/s/uDnFJC0szOHtO2NqREz2wA [2] https://www.jianshu.com/p/3a0e1e3e41d0

    94710编辑于 2022-09-27
  • 来自专栏生物信息学、python、R、linux

    kallisto比对参考转录

    kallisto是2016年发表在Nature Biotechnology上的一个比对工具,可以将bulk或者single-cell RNA-Seq数据的序列直接比对到转录,然后进行转录本鉴定及定量。 kallisto的优势在于比对速度很快,这是因为用了一种伪比对方法,即将k-mers比对到参考转录上。在用20套模拟数据与以往其他软件速度比较中,kallisto速度明显更快: ? 1. 2. 创建索引 kallisto index ${dir}/trancripts.fasta -i ${dir}/trans_index 提供fasta转录序列生成索引文件。 3. 定量 # 双端数据 kallisto quant -i ${dir}/trans_index -o output -b 100 reads_1.fastq.gz reads_2.fastq.gz #单端数据 可视化 --genomebam选项可以实现,此外还需要两个额外文件,一个是gtf文件,里面有每个转录在染色体中的位置;另外一个是每个染色体的长度文件。

    2.3K20发布于 2020-06-23
  • 来自专栏空间转录组数据分析

    10X空间转录数据分析汇总2

    文章大家可以好好看看,我在这里重点讲述分析方法,首先,空间转录污染的问题,这个污染来源于周围spot转录本的弥散,去污的方法是SpotClean,这个方法我之前分享过,文章在10X空间转录去污染分析之 第四点,识别肿瘤转录的program,这也是文章中常见的分析内容,一般我们采用WGCNA或者NMF寻找,但是这是偷懒的方法,作者就做的非常精细。 For each cluster, we retained the top 50 marker genes based on log2FC. Clusters with fewer than 50 significant genes (log2FC > 0.25 and P.adj < 0.05) were removed. correlation coefficients were visualized by ComplexHeatmap64 R package (v2.0.0).图片当然,最终的模块结果跟形态学是匹配的,这也是空间转录需要告诉我们的信息

    90140编辑于 2023-04-07
  • 来自专栏小明的数据分析笔记本

    DESeq2转录差异表达分析实例

    参考文章 生信技能树B站转录数据分析视频 https://github.com/jmzeng1314/my-R/blob/master/8-DEG/example_input_output/DESeq2 我的R语言版本是3.6.1 安装分析过程需要用的的R包 DESeq2 差异表达分析 BiocManager::install("DESeq2") 使用library(DESeq2)加载的时候遇到报错 treated3 untreated1 untreated2 untreated3 FBgn0000003 0 0 1 0 FBgn0000017 3150 FBgn0000018 310 cts是表达矩阵 coldata是用来指定样本分组的数据集 DESeq2差异表达分析 library(DESeq2 ))+2*sd(abs(log2FoldChange))) logFC_cutoff DEG$change<-as.factor(ifelse(DEG$pvalue<0.05&abs(DEG$log2FoldChange

    2.5K20发布于 2020-03-03
领券