首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信宝典

    分析Python实战练习 3 | 视频21

    开源 Python教程 专用简明 Python 文字和视频教程 源码在:https://github.com/Tong-Chen/Bioinfo_course_python 一些练习题 给定FASTA aDict = {‘ENSG00000000003’: {“A-431”: 21.3, “A-549”, 32.5,…},”ENSG00000000003”:{},} 用到的知识点 输入格式(只需要前3列就可以 0.0 FPKM Not detected ENSG00000000005 A-549 0.0 FPKM Not detected ENSG00000000005 AN3- Not detected ENSG00000000005 CACO-2 0.0 FPKM Not detected 输出格式 Name A-431 A-549 AN3- chr1 199 208 TGGCGTTCA chr1 207 216 ACCCCGCTG chr2 63 70 AAATTGC chr3 0

    23420编辑于 2023-09-12
  • 来自专栏图形化开放式生信分析系统开发

    图形化开放式分析系统开发 - 3 分析流程的进化

    接上两篇内容,本文主要讲述工作中NGS从科研进入医学临床领域,工作中接触到流程,以及最终在实现的过程。 接触二代测序,分析,那真是打开了一个新世界的大门,各种名次术语满天飞,搞的头晕脑胀。 下面分阶段描述分析流程升级/进化的过程: ---- 1.手动命令行运行 经过几个月接触,自学、爬坑,慢慢搞清楚了部分内容,在似懂非懂之间开始了流程分析,终于有一天明白过来,这所谓的pipeline 比如其中一个步骤: 分析流程的进化_1.png QC 完成后,然后运行下一个步骤: 分析流程的进化_2.png 运行模式,一个输入或者多个输入文件,通过软件分析/计算得到一个或者多个输出文件 脚本连续运行 随着熟练程度提高,分析上用到的软件/工具也熟悉起来了,但是问题也暴露出来了,简单的一套 GATK Best Practice 肿瘤突变分析流程,加上CNV,SV 分析从 fastq 文件开始到最后得到过滤的 到这里,基本上就达到很多公司的自动化分析水平了 6. 然而到这里就足够了么?

    1.2K00发布于 2020-01-17
  • 来自专栏芒果先生聊生信

    分析网站(生存分析

    论文的套路 ONCOMINE从全景、亚型两个维度做表达差异分析; 临床标本从蛋白水平确认(或HPA数据库),很重要; Kaplan-Meier Plotter从临床意义的角度阐明其重要性; cBio-portal 数据库做基因组学的分析(机制一); STRING互作和GO/KEGG分析探讨可能的信号通路(机制二); TISIDB/TIMER分析肿瘤免疫特征(机制三)。 差异分析,无论是Oncomine,GEPIA,还是UALCAN、HPA数据库,都不需要R语言编写代码,容易上手,基本上一个星期甚至更短的时间就可以搞定,属于菜鸟级别生操作。并没有想象中那么难。 生存分析论文中经常出现的表型,也就是说基因在正常和肿瘤组织中表达的差异,与生存率的指标密切相关。如A基因在肿瘤中表达明显上调,生存率显著下降,这就是非常明确的相关性。 生存分析是非常重要的表型,诸多文章均有介绍。这里,我们对生存分析的纯数据库进行总结,果友们在选择时也可以作为参考。

    4.4K44发布于 2020-08-11
  • 来自专栏免疫组库研究

    分析】免疫组库基础分析9-CDR3 motif分析

    通过分析 CDR3 motif 的序列特征(如长度、关键氨基酸残基),可阐明免疫受体(Ig/TCR)与抗原结合的分子规律,揭示 “抗原 - 受体” 相互作用的特异性机制,为理解免疫应答的精准调控提供依据 图1.不同长度的CDR3 氨基酸motif比较 2.2 CDR3 中间氨基酸motif 分析 这是一种忽略CDR3长度,关注CDR3中间氨基酸多样性motif分析策略。 通常以CDR3最中间的氨基酸作为位置0,然后分别计算中间与左右两边各两个氨基酸的motif特征。 图2.CDR3中间氨基酸motif 分析 3. 举例分析CDR3motif 3.1 展示特定长度CDR3 氨基酸motif library(tidyr) library(tidyverse) files <-list.files(path = ". # 高度(英寸) ) } 3.2 CDR<em>3</em> 中间氨基酸motif <em>分析</em> df <- read.table("AA-sigclone.txt", sep='\t', header = TRUE) #

    27110编辑于 2025-10-20
  • 来自专栏免疫组库研究

    分析】免疫组库基础分析7-CDR3长度分析

    例如,抗体重链长 CDR3 倾向使用 DH2/DH3-JH6 基因片段,短 CDR3 则依赖其他基因组合‌。 通过高通量测序量化这一参数,可解码免疫应答的克隆动态,为精准免疫诊疗提供基石 2.如何分析CDR3长度 2.1 CDR3 核苷酸长度与CDR3氨基酸长度 在免疫组库分析文件中,提供CDR3区域的 因此,对CDR3长度的分析包括:CDR3 核苷酸长度与CDR3氨基酸长度,后者在分析中更为常见。 CDR3 长度分析的种类 3.1.CDR3 长度高斯分布分析 将X轴设置为核苷酸或者氨基酸不同长度数值,Y轴设置为百分比。展示每一个CDR3长度下对应的频率。 3.2.CDR3 长度平均分布分析 利用加权平均值来分析不同样本或者不同链的CDR3平均长度。 3.3.特定V/D/J 基因的CDR3 长度平均比较 如下图所示,图a展示了不同TRBV基因的相对频率。

    46010编辑于 2025-10-20
  • 来自专栏芒果先生聊生信

    分析网站(免疫浸润分析

    论文的套路 ONCOMINE从全景、亚型两个维度做表达差异分析; 临床标本从蛋白水平确认(或HPA数据库),很重要; Kaplan-Meier Plotter从临床意义的角度阐明其重要性; cBio-portal 在差异分析的前提下,表型分析成为重点内容,也是可以玩出花样的地方。 生存分析是非常常见的表型分析。与生存分析相比,相关性分析是另外一个常见的表型分析。 免疫浸润分析比生存分析、差异分析和相关性分析难度更大,因为免疫学是不断延伸、拓展的学科,并不断从理论走向应用、临床,兼有科学性和技术性,比如实验中已经普遍应用的免疫印迹(WB),流式分析,免疫组化和免疫荧光等等 分析中,有一种算法叫反卷积分析,英文名叫Deconvolution。 开发人员可以先通过预设一个优秀的数据训练集(训练集主要包含了每种不同免疫细胞的基因表达特征),然后通过反卷积算法推算出这个整体样本中究竟有哪些免疫细胞。

    7.7K43发布于 2020-08-12
  • 来自专栏生信学习小组

    学习day3

    anaconda是总管,职务比conda低,但干的活不少,也是个有内涵的家伙miniconda是区域经理,说白了就是干事的,而且比较专一,主要负责领域二、如何下载软件1.创建biosoft(mkdir latest-Linux-x86_64.sh星球:sh是脚本(就是一个程序,后台的代码)文件的后缀,也就是说其实这是一个下载的脚本。 然后出现这个界面:3.下载完成后,运行 :bash Miniconda3-latest-Linux-x86_64.sh,然后开始安装过程4.激活:source ~/.bashrc(注意空格)星球:激活不成功就将 add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/conda config --set show_channel_urls yes星球三 、开始使用conda1.查看当前服务器上安装的所有软件列表 conda list2.安装软件 conda install fastqc -y或conda install fastqc=0.11.7 -y3

    35310编辑于 2024-01-18
  • 来自专栏生信课程note+实验知识

    课程note-3

    #筛选score > 0的基因df1[df1$score > 0,1]df1$gene[df1$score > 0]#5.数据框修改#改一个格df1[3,3] <- 5df1#改一整列df1$score mm[2,]m[,1]m[2,3]m[2:3,1:2]mt(m):转置 行变列m<-as.data.frame(m) 转换为数据框 必须要赋值矩阵画热图: pheatmap::pheatmap(m) rm(df1,df2)rm(list = ls()) 改变列的顺序a <- a[,c(1,3,4,2)]练习3-1# 练习3-1# 1.读取exercise.csv这个文件,赋值给test。 ="b",]test[test$Species=="a"|test$Species=="c",]test[test$Species %in% c("a","c"),]练习3-2# 练习3-2# 1.统计内置数据 (a))a# 4.探索列表取子集l[2]和l[[2]]的区别(提示:数据结构)class(l[2])class(l[[2]])图片引自生技能树

    1.8K40编辑于 2023-02-09
  • 来自专栏笔记生信

    提升day3

    查看服务器 uname -a1.好的,是你64-bit(x86_64)2.3.下载成功未安装,需要运行这句代码(问啥回答啥)bash Miniconda3-latest-Linux-x86_64.sh channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/conda config --set show_channel_urls yes使用conda查看当前服务器上安装的所有软件列表 conda list安装软件 conda install fastqc -y 3尝试不加y,好吧,我也看不懂,反正就是不成功卸载软件 conda remove fastqc -y(先不试)选修conda 环境 分身就是不同的“conda environment”为了满足不同项目需要的相同软件的不同版本1.查看conda有哪些环境(带*已激活)2.创建也成功了3.成功成功,芜湖~4.退出当前环境conda deactivate 代码引用星球,说明部分引用星球心得,感觉今天比昨天简单,嘻嘻~

    23800编辑于 2023-11-15
  • 来自专栏用户10800790的专栏

    星球 day 3 —— 橙子🍊

    安装一切顺利,愉快学习的一天,感谢星球,感恩豆豆花花,继续磕cp安装操作记录1. 查看linux服务器位数uname -a选择对应的64位,.sh是脚本文件后缀;注:64-bit(x86_64)、32-bit(x86)3. 选择相应的miniconda,右键复制链接网址图片4. 查看当前服务器安装的所有软件conda list2. 环境,然后指定python版本是3,安装软件fastqc、trimmomatic;安装完确认一下。 3. 激活新环境conda activate rna-seq相当于进入该环境,类似于cd 目录conda deactivate退出当前环境

    35570编辑于 2023-10-23
  • 来自专栏图形化开放式生信分析系统开发

    图形化开放式分析系统开发 - 5 分析流程服务器端运行

    在上文图形化开放式分析系统开发 - 4 分析流程的图形化设计 讨论了分析pipeline的图形化,如何用图形的方式显示pipeline,但是pipeline脚本按照变量的形式保存之后,如何运行 分析过程状态、服务器运行状态,需要由服务器端推送到用户端。 综合考虑,结合软件设计目标,这里选择远程模式 运行服务器节点: 服务器节点信息: 经常手动分析脚本的朋友大家的习惯可能是,ssh远程登录Linux服务器,在shell控制台输入各种脚本,软件。 网络状态、变量值是否符合要求 Web终端应急操作,可以点击终端按钮直接打开shell,手动操作,见下图: 服务器信息3.PNG 运行的方式: 之前系统设计时所做的准备: 通过图形化设计之后获得的pipeline 运行完成后服务器端推送信息到控制端,判断是否符合要求,输出文件是否存在 运行失败后服务器端推送信息到控制端,显示错误信息,错误日志,便于开发人员查找错误 统计每一个分析步骤的运行时间,便于统计分析

    95500发布于 2020-01-17
  • 来自专栏芒果先生聊生信

    分析网站(欢迎收藏)

    分析,无论是Oncomine,GEPIA,还是KM Plotter数据库,都不需要R语言编写代码,容易上手,基本上一个星期甚至更短的时间就可以搞定,属于菜鸟级别生操作。并没有想象中那么难。 p<0.05就是我们前期做分析想要的结果,即使用GEO数据库、TCGA数据库做分析,甚至做芯片或测序,没有差异也是枉然。 对于医生,个人建议是最好学会R语言,最起码掌握不用R语言的数据库分析。 最重要的是阅读过的文献和做过的分析,可以进一步促进对临床上疾病的认识,提升医生的诊治水平。 ? 接下来,我们将按照中心法则和论文分析的思路总结分析的网站。 这些网站均是纯数据库,不需要R语言基础,就像Excel、PPT一样容易上手,只要你愿意学,肯定能学会。 差异分析数据库 oncomine数据库(差异分析首选) https://www.oncomine.org/resource/main.html GEPIA数据库(共表达是特色) http://gepia.cancer-pku.cn

    3.1K20发布于 2020-08-10
  • 来自专栏生信菜鸟团

    分析之conda安装

    技能树学习笔记 Anaconda 的官网是 https://www.anaconda.com/ 官网上介绍anaconda是所有语言的包、依赖和环境管理器。 Conda之间的关系如下 当我们使用服务分析数据,我们使用miniconda,如果在自己的电脑上使用anaconda。 因为在数据分析过程中我们要使用很多种软件,软件安装中会遇到各种问题。 # 创建小环境成功,并成功安装python3版本 # 每建立一个小环境,安装一个python=3的软件作为依赖 # 查看当前conda环境 conda info -e conda env list # conda remove -n rna fastqc 不指定-n参数就得进入该环境之后才能进行删除操作,同样,-y能够跳过确认执行的步骤 Conda常用命令 补充 技能树学习笔记 前情提要:1.安装

    1.2K10编辑于 2024-07-10
  • 来自专栏芒果先生聊生信

    分析网站(相关性分析

    论文的套路 ONCOMINE从全景、亚型两个维度做表达差异分析; 临床标本从蛋白水平确认(或HPA数据库),很重要; Kaplan-Meier Plotter从临床意义的角度阐明其重要性; cBio-portal 数据库做基因组学的分析(机制一); STRING互作和GO/KEGG分析探讨可能的信号通路(机制二); TISIDB/TIMER分析肿瘤免疫特征(机制三)。 在差异分析的前提下,表型分析成为重点内容,也是可以玩出花样的地方。生存分析是非常常见的表型分析。与生存分析相比,相关性分析是另外一个常见的表型分析。 严谨的论文还对分析结果做出ROC曲线,以提高数据的可信度和说服力。 ) http://www.oncolnc.org/ cBioPortal(组学分析神器也能做生存分析) https://www.cbioportal.org/ 差异分析数据库 oncomine数据库(差异分析首选

    5.5K21发布于 2020-08-11
  • 来自专栏生信技能树

    第一步-购买腾讯云服务器搭建自己的分析环境

    一.腾讯云服务器-构建分析环境 01.硬盘设置 挂载数据盘,我先买了200G的云数据盘,暂时够用,手动挂载后,需要进入服务器,再次进行挂载 df -h # 服务器原始的状态 ? 这里要特别感谢技能树群里的小伙伴,jimmy、skk、李东野、黯蓝、卖萌哥、小洁,在他们的热心帮助下,解决了这个问题!万分感谢!问题出在腾讯云的安全组设置! ? ? ? ? rstudio ? ♚ OK,到这里,配置就完成了!前前后后、反反复复,配置一个云服务器,花了3天的时间,设置自动挂载、寻找源,一个个的解决问题,这还是在有优质的教学视频的前提下,假如没有,学习成本还要高得多。 这里,真的要大力推荐 技能树团队 的教程, 感谢jimmy等一批无私分享者!对于我们这样的小白,实在是务必珍贵的资源,希望更多人能够看到,并从中学习到想要的技能、知识! 参考: 技能树公众号 - 所有的教程都值得仔仔细细的学习 R官网教程 https://cran.r-project.org/bin/linux/ubuntu/README.html#secure-apt

    4.7K22发布于 2020-04-02
  • 星球——入门DAY3:Linux环境下安装软件

    因为我用的是自己的MacBook的terminal,第一个指令wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3- 下成Linux版了,死活安装不了……最后发现应该选mac版:wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3- 总之就是为了加快速度…………接下来正式使用conda:conda install fastqc -y(-y)很关键最后加一个conda环境:conda create -n rna-seq python=3 fastqc trimmomatic -y搞一个python版本是3的conda环境来安装fastqc、trimmomatic。

    40510编辑于 2024-01-19
  • 入门Day3-4

    引自生技能树引自生技能树DAY3三、数据结构——数据框1、数据框的来源(1)用代码新建(2)由已有数据转换或处理得到(3)读取表格文件(4)R语言内置数据注意:向量是一维的,且只存储一种数据类型;matrix 与向量长度相等且一一对应df1$gene[df1$score>0](2)删除变量# 删除 #赋了一个值发现它没有用,然后把它删掉rm(x)rm(df1,df2)rm(list = ls()) ctrl+l#清空控制台引自生技能树 10,mean=0,sd=18),用向量取子集的方法,取出其中小于-2的值z = rnorm(n=10,mean=0,sd=18)zz[z< -2]z[z<(-2)]四、函数与R包1、函数与参数引自生技能树 #<-之间要有空格或打个括号,不然会被当成赋值符号2、R包介绍3、R包镜像引自生技能书使用镜像,加快R包的下载,不用从大洋彼岸去下载4、R包的安装与来源(1)CRAN网站(2)Bioconductor sdlibrary(limma)browseVignettes("limma") #不是每个包都有ls("package:limma")5、R包的安装和使用逻辑引自生技能书引自生技能树练习题4-1#

    49210编辑于 2025-05-15
  • 来自专栏科研菌

    代码:差异分析(TCGAbiolinks包)

    引言:上一期(这里可到达上一期)我们利用得到的肝癌的数据,进行了预处理,得到了最终的表达矩阵TCGA_LIHC_final.csv,今天我们的主要任务就是进行差异表达分析。 此外,还会顺带讲两个进行富集分析和聚类分析的函数。 基因差异表达分析 01 # 首先读入表达矩阵文件 dataFilt_LIHC_final <- read.csv("TCGA_LIHC_final.csv", header = T,check.names <- log(mat1+1) # 定义正常组织样本分组 mat2 <- dataFilt_LIHC_final[,341-390] mat2 <- log(mat2+1) # 然后就可以进行差异表达分析啦 Genelist) # 富集分析的结果 ?

    3.2K42发布于 2021-01-12
  • 来自专栏免疫组库研究

    分析】免疫组库基础分析3-基于VDJ使用频率的聚类分析

    前言:为什么我们要做聚类分析 当我们试图分析样本的整体V、D、J的使用频率与样本的其他特征如(组别,性别、治疗前后、疾病活动度等其他临床特征)是否具有相关性。我们需要对样本进行聚类分析。 当数据矩阵中行信息是某一特征集合如不同的IGH基因名或者克隆子序列或者是CDR3氨基酸长度,而列信息是样本或相关特征,这种数据矩阵其实与转录组基因表达矩阵无差异,PCA可以知道样本组间的差异性如何,差异基因聚类热图可以发现样本的相似性如何 因此,聚类分析的方法广泛用于生物信息学。 我当初只知道用PCA分析方法即可,而当我试图进一步了解聚类分析时候,才发现有太多的分析方法。如果详细写下每一个聚类方法,则偏离了本文的主旨。 我选择一种简单的方式,选择immunarch这个免疫分析R包对基因使用频率的高级分析内容来讲。这部分内容基于V/D/J使用频率的聚类分析方法较为全面,操作性较强。 3、聚类方法 ‌"hclust" (Hierarchical Clustering)‌ ‌功能‌:基于树状图的层次聚类,可结合不同距离度量(如欧氏距离)。 ‌

    20010编辑于 2025-10-20
  • 来自专栏用户7627119的专栏

    聊个天就把分析做了!!!

    这是一个很宏大的设想,不需要编程,只需要输入自然语言,该工具就可以帮助实现所需的分析。而且还可以根据每次的分析经历进行自我学习和提高,不断完善其识别任务和盛微分析的能力。 这么有意思的工具得实际体验一下,经测试可以轻松完成TCGA数据的统计、指定基因的关联分析和一套转录组数据的分析(从原始数据到表达矩阵)。其官方视频还提供了进行生存分析、突变分析等功能的演示。 DrBioRight整体功能介绍 http://mpvideo.qpic.cn/0bf2r4cheaae3qamhiltenpvjd6dokhqi4qa.f10002.mp4? http://mpvideo.qpic.cn/0b78fqaakaaa4aalm3lxjfpvalgdauwaabia.f10002.mp4? dis_k=31bc0c3001c98d0f54ae1f924fa3efd8&dis_t=1663759446&vid=wxv_1544981306189643777&format_id=10002&support_redirect

    67620编辑于 2022-09-21
领券