首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信菜鸟团

    转录数据过滤-4

    生信技能树学习笔记 数据过滤条件 测序得到的原始序列含有接头序列或低质量序列,为了保证信息分析的准确性, 需要对原始数据进行质量控制,得到高质量序列(即Clean Reads),原始序 列质量控制的标准为 : (1) 去除含接头的reads; (2) 过滤去除低质量值数据,确保数据质量; (3) 去除含有N(无法确定碱基信息)的比例大于5%的reads;(可以根据实际情况) 数据过滤-trim_galore 前台运行命令 暂停命令 Ctrl+Z 查看命令ID 前台转后台 杀程序 后台:Kill -9 %1 前台:Ctrl+C 如何检查脚本内容:echo命令 使用echo将命令打印出来查看是否变量等有错误 数据过滤数据过滤 -trim_galore运行结果 第二种数据过滤软件——fastp https://github.com/OpenGene/fastp 特点:快 fastp常用参数 注意大小写 小技巧:\的妙用 表示手动换行

    59010编辑于 2024-07-10
  • 来自专栏生信技能树-R

    转录数据分析-比对

    ·1.参考基因准备·2.比对:Hisat2 Salmon1.参考基因准备参考基因数据库常用参考基因数据库Ensembl:www.ensembl.org #用得最多数据库完善有基因对应的IDNCBI Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz-rw-rw-r-- 1 Mar402 Mar402 139091 Apr 23 16:51 wget-log# 下载转录序列 format)格式,即序列比对文件格式,详细介绍见:http://samtools.github.io/hts-specs/SAMv1.pdf BAM是SAM的二进制文件(B源自binary) #PPT转录 值的理解# (0x100) 代表着多比对情况,所以直接用samtools view -f 0x100可以提取 multiple比对的 情况-----来自于生信技能树------(大概估计)10个样本 转录估算使用空间 :一个样本1.5G大小 *101、质控:cleandata 1.5GG*102、比对: sam 13G10 2(膨胀),bam 2G*10共约 410G简单粗暴 转录数据多大*4~6倍

    91400编辑于 2023-05-09
  • 来自专栏生信技能树

    python读取空间转录数据

    上一期我们学习了使用python读取不同的单细胞数据:python版读取不同的单细胞数据格式(单样本与多样本),今天来看看使用python读取空间转录数据。 0.示例数据准备 此次教程分析使用数据:10x官方的Mouse Brain (Coronal) Visium dataset数据集。 pathlib import Path import os os.environ["PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION"] = "python" # 读取数据 size=1.2) 需要注意的事,sc.read_visium 这个在 scanpy 1.11.0以后的版本中 已经停止使用: 下一期分享使用 SpatialData 读取空转 10X visum HD的数据

    52102编辑于 2025-03-06
  • 来自专栏生信菜鸟团

    转录数据质量评估-3

    生信技能树学习笔记 数据质量评估 FastQC软件可以对fastq格式的原始数据进行质量统计,评估测序结果,为下一步修剪过滤提供参考。 fastqc运行 目标:使用fastqc对原始数据进行质量评估 # 激活conda环境 conda activate rna # 连接数据到自己的文件夹 # 如果上面做习题的时候已经链接过来,无需再次链接 指输出到当前文件夹 *是通配符 • nohup:no hang up(不挂起),退出终端不会影响程序的运行 • &:后台运行 # 使用MultiQc整合FastQC结果 multiqc *.zip -o ./ 下载数据查看结果

    44610编辑于 2024-07-10
  • 来自专栏数据科学(冷冻工厂)

    空间转录:从R导入数据

    引言 本系列讲解 空间转录学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群(你懂的)! 平面文件结构 目前,不同商业供应商提供的空间转录学平台的数据,其文件结构和格式各不相同。 不过,这些数据在本质上是相似的,比如:基于测序的数据都包含阵列点的空间位置和计数矩阵;基于成像的数据则包括转录本位置(通过点呼叫得到)、多边形边界(通过分割得到)以及计数矩阵(通过将转录本分配到细胞得到 Visium(10x Genomics) 在 Visium 数据上运行 Space Ranger(10x Genomics 提供的数据处理软件)会生成一标准化的输出文件。 SpatialExperimentIO 提供了多种基于成像的空间转录学平台的读取器,涵盖了 CosMx(Bruker)、Xenium(10x Genomics)、MERSCOPE(Vizgen)和 seqFISH

    58600编辑于 2025-07-02
  • 来自专栏生信技能树

    转录数据拼接之应用篇

    前前后后接触了一些基因转录拼接的工作,而且后期还会持续进行。期间遇到了各种各样莫名其妙的坑,也尝试了一些不同的方法和软件,简单做一个阶段性小结。 trinityrnaseq/trinityrnaseq/wiki 相关文献: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3571712/ Trinity是目前最常用的转录拼接软件 against proteins or transcripts from a related species and inspecting the alignments 这里我们主要使用前两个功能,如果是有参转录的拼接 但如果是为了查看新的转录本,进行第三项评估也没有太大意义。针对转录拼接而言,第一步中各种长度的统计结果意义也不大,只有回帖率这个指标是最重要的。 至此,已经完成了常规的转录拼接工作,可以进行更多的后续分析。比如基因结构注释等等。

    3.7K60发布于 2018-03-05
  • 来自专栏数据科学(冷冻工厂)

    空间转录数据格式介绍

    简介 Bioconductor 提供了多种数据类,用于存储和处理空间(转录数据集。这些统一的数据结构使得可以方便地将不同研究团队开发的方法和软件包整合起来,构建出包含最新先进方法的分析流程。 接下来,介绍本系列中用到的 Bioconductor 数据类。 文件格式 空间(转录学的检测手段以及由此获取的数据类型丰富多样。而且,不同的供应商在分发数据时采用的文件格式也不尽相同。 数据类 在基于测序的空间转录学(ST)数据里,数据呈现为转录本 - 位点计数矩阵的形式,每个位点还附带空间坐标信息。 经过细胞边界的分割和转录本到细胞的映射后,这些数据可以被转换成类似单细胞学技术数据转录本 - 细胞计数矩阵。 MoleculeExperiment MoleculeExperiment(ME)是专门针对基于成像的空间转录数据设计的。

    68910编辑于 2025-06-11
  • 来自专栏生信技能树-R

    转录数据分析- Raw data

    图片 转录概述 图片 图片 图片 图片 图片 图片 图片 上机测序完成之后得到的测序数据为FASTQ文件 图片 Linux 复习 图片 准备工作-目录管理 图片 # 进入到个人目录 cd ~ ## 1.建立数据库目录:在数据库下建立参考基因数据库,注意命名习惯:参考基因版本信息 mkdir -p database/GRCh38.105 ## 2.建立项目分析目录 mkdir project cd project mkdir Human-16-Asthma-Trans # 注意项目命名习惯:物种-样本数-疾病-分析流程 cd Human-16-Asthma-Trans # 建立数据存放目录 ── Expression │   ├── featureCounts │   └── Salmon └── Mapping ├── Hisat2 └── Subjunc Fastq 数据介绍 /*gz ./ 图片 图片 fastq数据第四行 图片 碱基识别出错的概率映射值Q值与FASTQ数据中储存:F怎么转换 图片 (例如Q=70 用70-33=37,对应图1 Q=37已经满足了 ) 图片

    1.1K40编辑于 2023-04-10
  • 来自专栏空间转录组

    空间转录数据下游分析(一)

    前面我们介绍了从Xenium下机数据开始,到数据读取、质控、降维聚类、空间聚类(Banksy)、细胞类型注释(特征基因注释、RCTD反卷积注释),完成了基础的分析,(Xenium数据分析 | 下机数据读取 ;Xenium数据分析 | 数据预处理、单细胞降维聚类、细胞类型定义)接下来需要基于我们的实验设计进行后续分析,得到相关结果,讲述我们的生物学故事。 这里我们用4个小鼠肺腺癌样本Xenium数据进行演示,记录下我们对空间数据分析简单的见解,希望可以和大家相互学习。      空间转录(Xenium, VisiumHD, Cosmx)数据分析中,我们在细胞类型注释完成后,接下来通常会再识别出不同的CN,每个CN中会包含特有的几种细胞类型,CN中的细胞类型由于其细胞类型组成的相似性 ,代表了共有的细胞结构,在空间转录数据分析的过程中,比较不同条件下样本之间的空间结构,就会找到疾病所带来的组织结构变化,可以在更加全面的角度上认识疾病,并为治疗提供积极的意见。

    50410编辑于 2025-06-08
  • 来自专栏空间转录组

    空间转录数据下游分析(二)

    邻近富集分析(Proximity Enrichment Analysis)是空间转录数据分析中的一种重要方法,用于评估细胞类型对之间的空间关联性。 该分析通过置换检验(permutation-based tests)来比较实际观察到的细胞类型对出现的频率与随机置换数据中的频率,从而确定细胞类型之间的空间关系是否具有统计学意义。 例如,通过邻近标记技术,研究人员可以在活细胞或组织内标记特定区域的蛋白质,从而获得更全面、更真实的细胞器蛋白质图谱。 在肿瘤研究中,利用邻近标记技术可以精准地解析肿瘤细胞及其周围基质细胞、免疫细胞等的蛋白质邻近富集分析结果热图展示:富集得分反映了两种细胞类型之间空间邻近关系的显著性。

    25500编辑于 2025-06-08
  • 来自专栏Linux基础入门

    单细胞转录 | 数据降维

    前言 在对单细胞转录数据标准化之后,需要对数据进行降维。 那么降维的目的是什么呢? 设置工作路径 setwd("D:/sc-seq/BC21") 根据自己数据的存放位置自定义路径。 4. 读取数据数据为标准化后的数据。 RunPCA函数格式:RunPCA(object,features = NULL, npcs = 50,……) object:标准化后的Seurat对象; features:用来进行PCA的基因:为单细胞转录 下图中PC1解释最大的数据差异,PC2解释了第二大部分差异,PC3解释了第三大部分差异,以此类推…… 那么我们应该选择多少个PCs数才能代表数据的真实结构,进行后续分析呢?请接着往下看。 选择纬度数时建议一般情况纬度数选择10-20之间;同时更建议根据自己的数据情况,选择多组不同的纬度数进行下游分析,找到最佳结果。 6. 保存数据 保存存储PCA信息的数据用于后续分析。

    1.1K40编辑于 2022-12-20
  • 空间转录数据库汇总

    作者,Evil Genius分享一个数据库,CROST, CROST应用标准化处理流程整合了182个高质量的空间转录数据集,涵盖8个不同物种、35种组织类型和56种疾病的1033个子数据集。 CROST通过集成空间转录、经典转录、表观基因和基因数据全面阐明了肿瘤相关SVG,是用户(尤其是临床医生)快速评估特定癌症类型中基因表达水平、甲基化水平、拷贝数变异以及预后的宝贵工具。 CROST还开发了一个专为空间转录组分析而设计的一站式分析平台,旨在帮助用户即使不具备任何编程技能也可进行空间转录组分析。 目前分享的数据库包括SpatialData,文章在整合多模态空间数据开源框架--SpatialData,网址在https://spatialdata.scverse.org 还有SpatialTME SPASCER数据库,SPASCER数据库是一个新的空间转录数据库,包含43个研究的1082个数据集,旨在帮助理解组织异质性,组织微环境以及跨组织结构的细胞间相互作用,网址在https://ccsm.uth.edu

    1.2K20编辑于 2024-04-27
  • 来自专栏生信修炼手册

    STAR:转录数据比对工具简介

    STAR是一款RNA_seq数据专用的比对软件,比对速度非常快,最大的优势是灵敏度高,GATK推荐采用STAR比对,然后进行下游的SNP分析。 官方推荐基因的fasta采用primary_assembly版本, 不应该包含alt_scaffold和patches。 单端数据比对的基本用法如下 STAR \ --runThreadN 20 \ --genomeDir hg19_STAR_db \ --readFilesIn reads.fq \ --sjdbGTFfile hg19.gtf \ --sjdbOverhang 149 \ --outFileNamePrefix sampleA \ --outSAMtype BAM SortedByCoordinate 双端数据比对的基本用法如下 ,添加所有样本的SJ.out.tab文件,然后利用新的基因索引重新比对。

    6.3K42发布于 2020-05-08
  • 来自专栏R语言小白

    转录 - 比对

    生信技能树学习笔记 参考基因准备 常用参考基因 Ensembl asia.ensembl.org/index.html NCBI UCSC ## 进入参考基因目录 mkdir -p $HOME/database release-105/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz > dna.log & ## 下载转录序列 ftp.ensembl.org/pub/release-105/gff3/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gff3.gz >gff.log& fasta 数据格式 > 开头,序列名称&序列描述 序列中允许空格、换行、空行,直到下一个 > ,表示该序列结束 gff/gtf 文件介绍 第三列 属性的类型,gff和gtf的区别 第九列 属性的特征 Ensembl基因数据库 -2 双端测序结果的第二个文件 -U 单端数据文件 --rna 链特异性参数 -p 线程数

    1.9K20编辑于 2023-03-02
  • 来自专栏用户7627119的专栏

    空间转录

    近年来空间转录技术出现在人们的视野中,由于这项技术不仅能够获得转录的表达信息,同时还能对基因进行定位,因此受到研究者们的追捧。空间转录技术到底是什么?它有什么用?应该怎么用? 空间转录技术可以帮助我们更准确的了解疾病的病理信息;空间转录可以消除组织分离带来的偏差。 空间转录技术无需进行组织解离,避免了在解离过程中造成的细胞损伤;空间转录有助于异质组织中细胞类型的识别。 ? 空间转录可以保留组织和细胞的微环境信息 三、空间转录是怎么实现的? 实验流程 三、空间转录如何应用? 整合空间转录和单细胞转录揭示胰腺导管腺癌的组织结构 ? 整合两个数据集后发现导管细胞,巨噬细胞,树突状细胞和癌细胞的亚群的富集具有空间特性,表达压力反应基因模块的炎症成纤维细胞和癌细胞在同一区域分布。

    2.4K31发布于 2020-08-06
  • 来自专栏生信喵实验柴

    空间转录

    传统的转录可以得到基因的差异表达信息,单细胞转录提供了更高分辨率的基因表达信息,可以分辨出不同细胞的类型,而空间转录在此基础之上,还可以得到不同类型细胞的空间分布信息,分辨率进一步提高。 样品切片信息 切片+单细胞得到的空间转录 二、为什么要做空间转录? 空间转录将组织切片与转录测序结合,实现空间信息和转录本信息的获取。 四、空间转录组建库 由于空间转录相比于单细胞转录多了空间信息,因此 10X Visium 的实验可以分为两个板块——组织学板块和学板块。 对全转录或靶向基因表达文库进行测序,并通过易用的数据分析和可视化软件 Space Ranger 和 Loupe Browser 来开展数据分析和可视化。 autoplay=true 五、空间转录数据分析 空间转录组分析流程 案例: https://support.10xgenomics.com/spatial-gene-expression

    4.4K21编辑于 2023-02-24
  • 来自专栏生信菜鸟团

    转录数据比对subjunc-7

    subread-buildindex 5款流行比对工具大比拼:https://mp.weixin.qq.com/s/YI8QzAaAEWubCe1JxXEL1w 分析流程 ## ----构建索引# 进入参考基因目录 Hisat_aln.sorted.bam SRR1039510.Hisat_aln.sam ##----depth统计测序深度# 得到的结果中,一共有3列以指标分隔符分隔的数据

    29410编辑于 2024-07-10
  • 来自专栏生信技能树

    转录讲师带你读文献(4)-转录数据到底起多大作用呢?

    我在我在04-转录笔记推文任务列表(半年期)里面安排了6个经典综述和10篇转录应用文献给大家,可惜愿意沉下心了认真苦学的并不多。 (https://share.mubu.com/doc/14uneHKvPg) 所以安排转录讲师给大家做一下领读: 下面是转录讲师的投稿 1 文章信息 Title:Maintenance of Primary ,P value < 0.05 and fold change > 2 or < 0.5 转录的标准分析,比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可; 解读GEO数据存放规律及下载 Fah的免疫化染色显示,LBDXL肝细胞在5、10和15周分别重新填充了3.2%、13.3%和61.4%的肝实质。 fumarylacetoacetate hydrolase:Fah,延胡索酰乙酰乙酸水解酶 4 总结 整个文章实验的部分相当多,这篇文章没有找到什么感兴趣的点,而且感觉转录测序数据的用武之地并不多。

    90910发布于 2021-05-27
  • 来自专栏生信菜鸟团

    转录数据比对hisat2-6

    生信技能树学习笔记 比对过程: • 1.建索引 • 2.比对参考基因 • 3.sam转bam 用到的软件——Hisat2 Hisat2主要是用来进行转录数据的比对。 hisat2主要参数: ## ----构建索引# 进入参考基因目录cd $HOME/database/GRCh38.105# Hisat2构建索引,构建索引时间比较长,建议提交后台运行,一般会运行20 多个样本比对 这里需要用到管道符|串联 比对参考基因 和 sam转bam两个步骤 这里的2代表下面这个程序中输出的过程,并将其重定向到样本对应的log文件中 关注点: • 总比对率:一般都能在80%以上 我要看FLAG 99是什么意思:samtools flags 99 0x63 99 PAIRED,PROPER_PAIR,MREVERSE,READ1 0x63 只能由0x1,0x2,0x20和0x40

    60710编辑于 2024-07-10
  • 来自专栏生信技能树生信入门马拉松

    转录测序分析

    转录数据分析一般流程转录测序原理SBS(Sequencing-By-Synthesis):通过单分子阵列实现在小型芯片(Flowcell)上进行 桥式PCR反应。 通过可逆阻断技术实现每次只合成一个碱基,再利用四种带有不同荧光标记的碱基,通过荧光激发/捕获,读取碱基信息基于 可逆终止的、荧光标记dNTP,边合成边测序转录:组织或所有细胞中包含所有类型的RNA转录集合 mRNA: RNA-Seq,普通转录测序lncRNA:lncRNA-Seq,一般采用链特异性测序miRNA: miRNA-Seq,小RNA测序circRNA: cirRNA-seq,一般有两种,消化性线性 RNA建库或者去rRNA建库转录测序实验流程1. 上机测序完成之后得到的 测序数据:FASTQ文件FASTQ数据格式fastq数据:高通量测序(如Illumina NovaSeq等测序平台)得到的原始图像数据文件,经碱基识别(Base Calling)

    70310编辑于 2024-06-27
领券