首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信技能树

    分析流程构建的几大流派

    导言 构建分析流程是生物信息学从业人员必备的技能之一,对该项能力的评估常常是各大公司招录人员的参考项目之一。 一个好的生物信息分析流程可以让你事倍功半,有效减负,同时也有利于他人重复你的数据分析结果。 ? 根据信息学数据分析流程(管道、工作流程序)构建的风格和方式,大致有以下几大流派(注1): 脚本语言流 Common Workflow language 语言流 Makefile流 配置文件流 Jupyter 分析流程构建的几大流派 | 脚本语言流 脚本语言流的主要是通过简单的脚本语言(如shell,R,Python,Perl)运行各类命令行脚本/程序。 )最早开始接触分析流程的方式。

    5.3K61发布于 2018-12-18
  • 来自专栏BioIT爱好者

    分析流程构建的几大流派

    导言 构建分析流程是生物信息学从业人员必备的技能之一,对该项能力的评估常常是各大公司招录人员的参考项目之一。 一个好的生物信息分析流程可以让你事倍功半,有效减负,同时也有利于他人重复你的数据分析结果。 根据信息学数据分析流程(管道、工作流程序)构建的风格和方式,大致有以下几大流派(注1): 脚本语言流 Common Workflow language 语言流 Makefile流 配置文件流 Jupyter 分析流程构建的几大流派 | 脚本语言流 脚本语言流的主要是通过简单的脚本语言(如 shell,R,Python,Perl)运行各类命令行脚本/程序。 前两种(1 和 2)是大多数生物信息学初学者(不具备封装和打包能力)最早开始接触分析流程的方式。后两种(3 和 4)是专业人员开发新工具、新流程的必备技能。

    2.8K41发布于 2021-10-15
  • 来自专栏图形化开放式生信分析系统开发

    图形化开放式分析系统开发 - 3 分析流程的进化

    接上两篇内容,本文主要讲述工作中NGS从科研进入医学临床领域,工作中接触到流程,以及最终在实现的过程。 接触二代测序,分析,那真是打开了一个新世界的大门,各种名次术语满天飞,搞的头晕脑胀。 下面分阶段描述分析流程升级/进化的过程: ---- 1.手动命令行运行 经过几个月接触,自学、爬坑,慢慢搞清楚了部分内容,在似懂非懂之间开始了流程分析,终于有一天明白过来,这所谓的pipeline 比如其中一个步骤: 分析流程的进化_1.png QC 完成后,然后运行下一个步骤: 分析流程的进化_2.png 运行模式,一个输入或者多个输入文件,通过软件分析/计算得到一个或者多个输出文件 脚本连续运行 随着熟练程度提高,分析上用到的软件/工具也熟悉起来了,但是问题也暴露出来了,简单的一套 GATK Best Practice 肿瘤突变分析流程,加上CNV,SV 分析从 fastq 文件开始到最后得到过滤的 到这里,基本上就达到很多公司的自动化分析水平了 6. 然而到这里就足够了么?

    1.2K00发布于 2020-01-17
  • 来自专栏生信小驿站

    单基因分析流程(6)单基因相似性分析

    第一步,下载COAD数据 ########################################################################################## ## step1 load package and change Working Directory ########################################################################################### library(

    1.2K21发布于 2020-08-13
  • 来自专栏图形化开放式生信分析系统开发

    图形化开放式分析系统开发 - 4 分析流程图形化

    在上文图形化开放式分析系统开发 - 3 分析流程的进化 讨论了分析pipeline的进化,从手动到自动,但仍然停留在终端命令行阶段,为了让更多非专业的人能够使用,就要想办法实现分析pipeline 变量的分类: 根据实际经验,pipeline变量用到根据用途可以分为以下几类: 分析数据目录${data} 分析过程输出目录${result} 分析用到的软件 bwa ${tools.bwa};samtools ${tools.samtools} 分析流程中用的reference文件以及数据库,如 hg19.fa ${ref.hg19} 分析流程中,用到的cutoff值. 如 cnv的cutoff值 ${cutoff.cnv} 分析流程运行时配置的资源,如 线程数 ${threads} 分配内存大小${mem} 变量值的类型: 字符:通用的格式,比较宽松 /节点设计:前文提到,分析pipeline其实就是基于文件输入输出的工作流,这里对工作流做了简化,归纳起来工作流中有4种节点。

    1.1K00发布于 2020-01-17
  • 来自专栏芒果先生聊生信

    分析网站(生存分析

    论文的套路 ONCOMINE从全景、亚型两个维度做表达差异分析; 临床标本从蛋白水平确认(或HPA数据库),很重要; Kaplan-Meier Plotter从临床意义的角度阐明其重要性; cBio-portal 数据库做基因组学的分析(机制一); STRING互作和GO/KEGG分析探讨可能的信号通路(机制二); TISIDB/TIMER分析肿瘤免疫特征(机制三)。 差异分析,无论是Oncomine,GEPIA,还是UALCAN、HPA数据库,都不需要R语言编写代码,容易上手,基本上一个星期甚至更短的时间就可以搞定,属于菜鸟级别生操作。并没有想象中那么难。 生存分析论文中经常出现的表型,也就是说基因在正常和肿瘤组织中表达的差异,与生存率的指标密切相关。如A基因在肿瘤中表达明显上调,生存率显著下降,这就是非常明确的相关性。 生存分析是非常重要的表型,诸多文章均有介绍。这里,我们对生存分析的纯数据库进行总结,果友们在选择时也可以作为参考。

    4.4K44发布于 2020-08-11
  • 来自专栏生物信息学

    一步到位-分析流程构建框架介绍

    好在时至今日,已经有很多科学家开发了非常多优秀的算法及软件,很多时候我们要做的是怎么将这些软件串联起来并构建成分析流程,而这项技能通常是各大公司考核应聘者的项目之一。 这种理念是我们最直观的分析逻辑,也是最常用的流程框架。通常,刚入门的同学们会选择这种方式,简单而暴力;段位较高的同学,则会选择将分析内容进行包装,然后提供多个参数选择,增加流程灵活性。 大部分时候,这样都会满足我们分析需求,但是其作为一个流程有着严重的缺点就是缺乏重入性(reentrancy),即当流程在运行过程中,很容易因为某些不知名的原因而发生中断,而普通的脚本流程只能是从头来过了 下面是Galaxy在线编辑WES分析流程界面: ? ,那么就可以使用Implicit/Explicit类的流程,如:Snakemake、Nextflow等,而这一类的流程也比较适合刚入门生的小伙伴们去尝试; 如果是需要进行高性能流程开发,致力于解决特定的生物学问题

    2.6K30发布于 2020-04-13
  • 来自专栏图形化开放式生信分析系统开发

    图形化开放式分析系统开发 - 5 分析流程服务器端运行

    在上文图形化开放式分析系统开发 - 4 分析流程的图形化设计 讨论了分析pipeline的图形化,如何用图形的方式显示pipeline,但是pipeline脚本按照变量的形式保存之后,如何运行 本程序作为控制端,可以和分析端部署在一台机器,也可以通过联网方式连接。 分析过程状态、服务器运行状态,需要由服务器端推送到用户端。 SliverWorkspace_V2.1.pdf 首先这里实现了,服务器账户信息的管理,账户、主机名、端口、密钥、密码,这些信息为了保证安全,需要二次加密,不能将密码明文保存在数据库中,一旦泄漏危害巨大 服务器信息2.png 针对分析流程 运行完成后服务器端推送信息到控制端,判断是否符合要求,输出文件是否存在 运行失败后服务器端推送信息到控制端,显示错误信息,错误日志,便于开发人员查找错误 统计每一个分析步骤的运行时间,便于统计分析

    95500发布于 2020-01-17
  • 来自专栏图形化开放式生信分析系统开发

    图形化开放式分析系统开发 - 6 分析流程批量运行与过程控制

    在上文生分析系统开发 - 5 分析流程服务器端运行 解决了设计好的流程分析服务器上运行的问题,随之而来就衍生出的新需求: 一、批量分析流程的运行顺序 流程输入文件是按照样本编号来匹配运行的,运行顺序就取决于样本信息 :开始分析流程之后,可以在任意时间停止分析过程 错误恢复运行:分析流程运行错误,再次运行,可以选择从错误处恢复运行 调试恢复运行:分析结束,修改pipeline参数后,可以选择从任意一点开始重新分析(应用修改后的参数 ) 覆盖运行:分析错误或者正常结束后,重新从头开始运行整个分析流程,并覆盖之前的分析结果 技术实现: 一、批量样本分析流程的运行顺序: 依赖于样本的优先级和输入的顺序先后,每次从数据库取出未完成分析的样本列表 每次列表中取最上面一个,去指定目录里匹配输入文件,如果输入文件符合匹配要求,立即启动pipeline,开始流程分析。同时更新该样本状态为正在分析,这样下次排序时候就不会重复获取该样本了。 其实就是一个带有优先级参数的先进先出的堆栈 二、分析流程的控制 前文描述了如何将设计好的pipeline运行于服务器,如果要监控整个运行过程,就需要创建一个守护线程,如果用户操作停止分析,这时候守护进程就要终止运行进程

    74400发布于 2020-01-17
  • 来自专栏芒果先生聊生信

    分析网站(免疫浸润分析

    论文的套路 ONCOMINE从全景、亚型两个维度做表达差异分析; 临床标本从蛋白水平确认(或HPA数据库),很重要; Kaplan-Meier Plotter从临床意义的角度阐明其重要性; cBio-portal 在差异分析的前提下,表型分析成为重点内容,也是可以玩出花样的地方。 生存分析是非常常见的表型分析。与生存分析相比,相关性分析是另外一个常见的表型分析。 免疫浸润分析比生存分析、差异分析和相关性分析难度更大,因为免疫学是不断延伸、拓展的学科,并不断从理论走向应用、临床,兼有科学性和技术性,比如实验中已经普遍应用的免疫印迹(WB),流式分析,免疫组化和免疫荧光等等 分析中,有一种算法叫反卷积分析,英文名叫Deconvolution。 开发人员可以先通过预设一个优秀的数据训练集(训练集主要包含了每种不同免疫细胞的基因表达特征),然后通过反卷积算法推算出这个整体样本中究竟有哪些免疫细胞。

    7.7K43发布于 2020-08-12
  • 来自专栏生信技能树

    每月一流程之rnaseqGene

    每月一流程栏目灵感来自于《铁汉1991》博客的《每日一》,他那个时候介绍的主要是基础知识,包括数据结构,数据格式,数据库资源,计算机基础等等,所以每天都可以进步,每天都有成果。 这些基础知识已经被分享的七七八八了,所以我这里推陈出新,来一个每月一流程,陪技能树的粉丝们一起进步! image.png 不同数据变换公式的差异 学习这样的流程是需要一定背景知识的 首先是LINUX学习 我在《分析人员如何系统入门Linux(2019更新版)》把Linux的学习过程分成6个阶段 , 30万学习量的基础合辑: image.png 技能树关于RNA-seq上下游数据分析的教程的确不少了 因为做目录确实很浪费时间,差不多就下面这些,大家先学习吧: 转录组经典表达量矩阵下游分析大全 可变剪切 小白的RNA-seq实战历程 RNA-seq数据分析指南 后记 听说隔壁openbiox团队在组织翻译这个bioconductor流程系列,而且还是由我们技能树元老-思考问题的熊领头,希望他们的翻译成果早日出版

    1K20发布于 2020-04-14
  • 来自专栏生信菜鸟团

    Singularity — 流程搭建好帮手

    (唯一不足是Conda安装的singularity不是最新版本) conda create -n singularity singularity=3.8.6 -y 4分析中为什么使用Singularity 在生物信息学分析中,使用Singularity 容器技术具有以下优势: 环境一致性和可重复性:生物信息学项目常常依赖于特定版本的软件和库。 Singularity 容器可以将软件及其依赖项打包在一起,确保分析环境的一致性,无论是在本地机器、服务器还是云平台上。 这种高度的移植性确保了生物信息学分析可以轻松地从一个计算环境迁移到另一个,无论是从个人电脑到云平台,还是在不同的研究机构之间共享。 singularity build --fakeroot test.sif test.def ## 运行 singularity run test.sif 示例演示 运行输出 6来看一个实例 刚好前段时间技能树有发一个推文介绍了中国人群的肝癌多组学队列研究

    2.1K10编辑于 2024-04-11
  • 来自专栏生信小驿站

    单基因分析流程(2)一文解决差异分析、基因相关分析问题

    单基因分析流程(1)一文解决TCGA数据下载整理问题 单基因分析流程(2)一文解决差异分析和基因相关分析问题 本文目的 学会如何使用差异分析 学会绘制火山图和热图 学会如何求取相关基因 第一招: 差异分析 差异分析步骤总结 (1)读取基因表达矩阵 (2)根据基因表达量设置样本分组 (3)设置差异倍数、生成差异分析结果 (4)绘制火山图和热图 加载所必须的包 # ============== ======================= 设置分组,我们根据ERBB2基因的表达中位值,将样本分为ERBB2高表达组和ERBB2低表达组,通过求两组样本的差异基因,来对ERBB2的生物学功能进行分析

    4.3K62发布于 2019-05-15
  • 来自专栏芒果先生聊生信

    分析网站(欢迎收藏)

    分析,无论是Oncomine,GEPIA,还是KM Plotter数据库,都不需要R语言编写代码,容易上手,基本上一个星期甚至更短的时间就可以搞定,属于菜鸟级别生操作。并没有想象中那么难。 p<0.05就是我们前期做分析想要的结果,即使用GEO数据库、TCGA数据库做分析,甚至做芯片或测序,没有差异也是枉然。 对于医生,个人建议是最好学会R语言,最起码掌握不用R语言的数据库分析。 最重要的是阅读过的文献和做过的分析,可以进一步促进对临床上疾病的认识,提升医生的诊治水平。 ? 接下来,我们将按照中心法则和论文分析的思路总结分析的网站。 这些网站均是纯数据库,不需要R语言基础,就像Excel、PPT一样容易上手,只要你愿意学,肯定能学会。 差异分析数据库 oncomine数据库(差异分析首选) https://www.oncomine.org/resource/main.html GEPIA数据库(共表达是特色) http://gepia.cancer-pku.cn

    3.1K20发布于 2020-08-10
  • 来自专栏生信菜鸟团

    分析之conda安装

    技能树学习笔记 Anaconda 的官网是 https://www.anaconda.com/ 官网上介绍anaconda是所有语言的包、依赖和环境管理器。 Conda之间的关系如下 当我们使用服务器分析数据,我们使用miniconda,如果在自己的电脑上使用anaconda。 因为在数据分析过程中我们要使用很多种软件,软件安装中会遇到各种问题。 基因组、转录组、Chip-seq…… 具体步骤: # 创建名为rna的软件环境来安装转录组学分析的生物信息学软件 conda create -y -n rna python=3.7 这一步输入y或回车都可以 conda remove -n rna fastqc 不指定-n参数就得进入该环境之后才能进行删除操作,同样,-y能够跳过确认执行的步骤 Conda常用命令 补充 技能树学习笔记 前情提要:1.安装

    1.2K10编辑于 2024-07-10
  • 来自专栏芒果先生聊生信

    分析网站(相关性分析

    论文的套路 ONCOMINE从全景、亚型两个维度做表达差异分析; 临床标本从蛋白水平确认(或HPA数据库),很重要; Kaplan-Meier Plotter从临床意义的角度阐明其重要性; cBio-portal 数据库做基因组学的分析(机制一); STRING互作和GO/KEGG分析探讨可能的信号通路(机制二); TISIDB/TIMER分析肿瘤免疫特征(机制三)。 在差异分析的前提下,表型分析成为重点内容,也是可以玩出花样的地方。生存分析是非常常见的表型分析。与生存分析相比,相关性分析是另外一个常见的表型分析。 严谨的论文还对分析结果做出ROC曲线,以提高数据的可信度和说服力。 ) http://www.oncolnc.org/ cBioPortal(组学分析神器也能做生存分析) https://www.cbioportal.org/ 差异分析数据库 oncomine数据库(差异分析首选

    5.5K21发布于 2020-08-11
  • 来自专栏生信小驿站

    单基因分析流程(3)一文解决生存分析和临床参数相关分析

    本文目的 (1)绘制生存分析图 (2)临床参数相关分析 加载所必须的包 # ============================================================== bold"), font.x = c(16, "bold"), legend = "top", font.legend = c(16, "bold")) dev.off() 临床参数相关分析

    3.4K41发布于 2019-05-15
  • 来自专栏生信情报站

    自动化流程搭建 06 | 指令

    后者定义了流程执行期间允许的错误总数(同一流程可以启动不同的执行实例),而maxRetries定义了在发生错误的情况下可以重试同一流程执行的最大次数。 如果系统中可用,则可以将其与Nextflow一起使用,以便在管道中配置流程执行环境。 在流程定义中,可以使用module指令加载要在流程执行环境中使用的特定模块版本。 默认情况下,文件会发布到目标文件夹,为每个流程输出创建一个符号链接,该链接将生成的文件链接到流程工作目录中。可以使用mode参数修改此行为。 仅将在流程定义中声明为输出的文件复制到管道工作区中。 动态指令 可以在流程执行期间动态分配指令,以便可以根据一个或多个流程输入值的值来评估其实际值。

    2.2K10发布于 2021-01-12
  • 来自专栏生信情报站

    自动化流程搭建 02 | 脚本

    要使用Bash以外的脚本,只需使用相应的shebang声明启动流程脚本 。例如: process perlStuff { """ #! 流程脚本可以通过简单地在脚本块前面加上关键字来包含条件语句script:。 然后,解释器将评估以下所有语句作为必须返回要执行的脚本字符串的代码块。 模板 可以使用模板文件将流程脚本外部化,该模板文件可以在不同的流程之间重复使用,并且可以通过整体管道执行独立地进行测试。 这样,可以在同一段代码中同时使用Nextflow和Bash变量,而不必逃避后者,并使流程脚本更具可读性和易于维护。 {str}作为由Nextflow管理的流程输入变量进行处理。 注意 Shell脚本定义要求使用单引号'分隔的字符串。使用双引号" 分隔的字符串时,美元变量照常解释为Nextflow变量。

    2.9K10发布于 2021-01-12
  • 来自专栏科研菌

    代码:差异分析(TCGAbiolinks包)

    引言:上一期(这里可到达上一期)我们利用得到的肝癌的数据,进行了预处理,得到了最终的表达矩阵TCGA_LIHC_final.csv,今天我们的主要任务就是进行差异表达分析。 此外,还会顺带讲两个进行富集分析和聚类分析的函数。 基因差异表达分析 01 # 首先读入表达矩阵文件 dataFilt_LIHC_final <- read.csv("TCGA_LIHC_final.csv", header = T,check.names <- log(mat1+1) # 定义正常组织样本分组 mat2 <- dataFilt_LIHC_final[,341-390] mat2 <- log(mat2+1) # 然后就可以进行差异表达分析啦 Genelist) # 富集分析的结果 ?

    3.2K42发布于 2021-01-12
领券