————————图片转载自小洁忘了怎么分身图片R/Rstudio图片数据类型与向量图片tab键、上下键、ctr+L(back)逻辑型数据图片转换和判断图片数据的结构图片脚本直接双击打开,数据要load加载向量的生成图片数据类型的转换优先顺序图片对单个向量进行操作图片赋值是实际改变文件的方法图片图片 中括号的作用可以把T挑选处理,丢弃F图片[]中括号里面的可以是逻辑值判断,可以是具体的值(即下标),可以是函数,可以是向量图片图片图片图片如何修改向量中的某个或者某些元素图片图片简单的向量作图图片图片数据框 、矩阵和列表向量是一维的矩阵是二维的图片lis列表t可装万物图片数据框的来源图片新建数据框图片从文件中读取(放在工作目录下)图片数据框的属性图片dim()多少行、多少列,nrow()多少行,ncol() 多少列,rownames()行名数据框取子集图片图片图片图片图片图片图片数据库数据框的修改图片图片图片图片图片图片图片矩阵新建和取子集(不支持$)图片矩阵的的转置、转换图片图片图片矩阵画热图图片图片列表的的新建和取子集图片 l[[2]]:取第二个子集,再取矩阵的子集列表支持$图片图片数据结构的总结图片函数和R包图片图片图片图片图片图片图片图片图片图片R包图片图片1.CRAN网站图片2.bioconductor图片3.github
CpG位点,用4种不同的降维方法处理数据后构建分类器,并结合临床特征进行富集分析评估分类器的预测能力,为临床侵袭性乳腺癌的诊断提供帮助。 本篇文章中,作者用转移淋巴结的DNA甲基化数据研究乳腺癌的侵袭性。为了克服数据和转移性样本不足的问题,作者用一种基于DNA甲基化标志的新方法鉴定样本,并构建了一个识别侵袭性乳腺癌的分类器。 因此,作者接下来用4种降维方法(MRMD,mRMR,PCA和FA)筛选特征构建分类器,表1展示了4种方法筛选的CpG位点数目。 ? 3.TCGA乳腺癌测试集验证分类器预测能力 作者进一步从TCGA下载了BRCA HM450 DNA甲基化数据和临床数据,用766个原发性乳腺癌样本和97个正常样本组成测试集。 结果表明(表1),4个分类器对正常样本的预测精度高达96.9%,和训练集预测精度几乎一致。然而,4个降维方法对BRCA侵袭性的预测结果均出现明显的差异。
R语言:用函数处理数据R语言的命令提示符(有>代码才能运行)图片图片图片图片图片图片图片图片图片数值型字符不带引号;字符型带单引号或双引号;TRUE,FALSE需大写,NA means not available 判断数据类型的函数:class(), 将要判断的内容写在括号里图片看到Error中的unexpected,一般是代码有误some tips1 Tab-打出前几个字母即出现提示,按↑↓翻动,按Tab补全2 光标放在>后面,按↑键,即可修改上一条命令,按回车重新运行图片图片(格式重于内容)引用自生信技能树
(取子集)图片图片图片图片图片图片1、比较运算 2、数学计算 3、连接图片循环补齐发生的条件:等位运算;两个向量长度不相等图片图片图片图片图片unexpected是代码错误的关键词图片图片图片引用自生信技能树
下面是( GEO数据挖掘 )直播配套笔记 一、背景了解 芯片数据:首选limma 。 :4] #检查矩阵是否正常,如果是空的就会报错,空的和有负值的、有异常值的矩阵需要处理原始数据。 (Group,levels = c("control","RA")) Group #2.探针注释的获取----------------- #捷径 library(tinyarray) # 这个包为生信技能树老师所写 :4] exp4 = limma::avereps(exp3) # 此时拿到的exp4已经是一个基因为行名的表达矩阵,直接差异分析,不再需要inner_join 4.GEG 在这个部分才进行id转换 /a67a180f-dd2b-4f6f-96c2-68a4b86fe862?
考虑到咱们生信技能树粉丝对单细胞数据挖掘的需求,我开通了一个专栏《100个单细胞转录组数据降维聚类分群图表复现》,也亲自示范了几个,不过自己带娃,读博,时间精力有限,所以把剩余的90多个任务安排了学徒, 实习生,学员。 这次我们要复现的单细胞数据来自International Journal of Cancer 2020年发表的一篇单细胞相关的纯生信文章。该文章数据链接:GSE150321 2. (跟着生信技能树Jimmy老师学习进步太快了) 2、不同人处理单细胞数据时设置的参数会有所不同,作者并没有在文章中给出太多相关信息,导致最终的结果有所不同。 4、 要学的东西太多了,一点点的来,不求快,但求稳,加油
c("lightblue","lightyellow","lightpink"))这个确实也是最简单的函数了……但是还是搜了一圈才搞清楚它的意思:boxplot即箱线图,iris是机器学习中很经典的数据集
文章所有内容均来自生信技能树“生信马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 1. 为什么要做数据挖掘 1.1 挖掘的数据从哪里来 图片 1.2 有什么可挖掘的数据类型 基因表达芯片、转录组、单细胞、表观遗传、突变…… 1.3 如何筛选基因 图片 2. 表达芯片的分析思路 图片 基因表达芯片的原理:探针的表达量代表基因的表达量图片 4. GEO挖掘实操 4.1 GEO数据集的下载获取 4.1.1 GEO挖掘需要准备的package options("repos"="https://mirrors.ustc.edu.cn/CRAN/") gpl_number <- eSet@annotation;gpl_number save(pd,exp,gpl_number,file = "step1output.Rdata") 以上内容均引用自生信技能树
差异分析表格二分组数据差异分析#差异分析 limmalibrary(limma)design = model.matrix(~Group) # 生成模型矩阵fit = lmFit(exp,design) :4]exp4 = limma::avereps(exp3)# 此时拿到的exp4已经是一个基因为行名的表达矩阵,直接差异分析,不再需要inner_join 3.加change列,标记上下调基因logFC_t 先把示例数据跑通,再把自己的数据改成示例数据的格式,最后修改参数。 -96c2-68a4b86fe862? clusterProfiler-book/index.html# GOplot:https://mp.weixin.qq.com/s/LonwdDhDn8iFUfxqSJ2Wew# 网上的资料和宝藏无穷无尽,学好R语言慢慢发掘~生信技能树
文章所有内容均来自生信技能树“生信马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 symbol,"///");table(k2) #去除非特异性探针格子 ids2 = ids2[ k1 & k2,] # ids = ids2 } # 方法3 官网下载注释文件并读取 # 方法4 exp,Group,ids,file = "step2output.Rdata") 自主注释流程--了解即可 图片 3.PCA与heatmap的绘制 3.1 PCA图 ######清空环境,加载需要的数据 , scale = "row", #基因只在样本间对比,不跨行与其他基因对比 breaks = seq(-3,3,length.out = 100) #从-3到3生成 以上内容均引用自生信技能树
源自生信星球,由于有R基础,内容1、2、3跳过了基础代码1、显示文件列表(右下角窗口file直接有显示,在R中其实不那么重要)dir()list.files()图片2、显示历史命令(右上角history 也有)history()就像view(a)可以直接点击environment中的a一样绘图基础ggplot21、ggplot2的内置数据框mpg(需library(ggplot2)才能读取)拿到一个数据首先就要观察它
今天的学习内容: 1.安装R(基础)和Rstudio(人性化一些的界面) 2.粗略了解R语言是什么,干什么的,认识Rstudio的工作界面 3.学会外观设置和基本操作 4.完成第一个R做的图 如果已经安装或者基础较好 boxplot(iris$Sepal.Length~iris$Species,col = c("lightblue","lightyellow","lightpink")) 注:iris是一个R语言自带的数据框 iris$Sepal.Length表示iris数据框的Sepal.Length这一列数据。以此类推。 3.加减乘除 1+2 回车 4.赋值 赋值符号用<-,这是小于号加上减号,也可以按Alt加上减号 x<- 1+2 意思是把1+2的运算结果赋值给x, 赋值后,x会显示在右上角的框,Environment 5.删除变量 a<-3 b <- 1 c <- 4 u <- 5+6 rm(b) rm(u,c) rm(list = ls())#清空所有变量 代码可以复制,更推荐的方式是用键盘上q前面的那个tab
生信技能树 图表介绍 热图 散点图 箱线图 火山图 理解logFC 主成分分析 PCA样本聚类图 基因芯片差异分析的起点是一个取过log的表达矩阵,得到数据后先看下有没有取log GEO背景知识 数据库介绍 (1)提取表达矩阵exp exp <- exprs(eSet) # exprs 提取数据的函数 dim(exp) # 多少行多少列 range(exp) # 看数据范围决定是否需要log,是否有负值,异常值 假如需要从多个分组里面取两个分组对应的行 library(stringr) k = str_detect(pd$group,"group1|group2");table(k) pd = pd[k,] (4) 注释来源有4种:Bioconductor注释包,GPL页面表格文件解析,官网下载对应产品注释表格,自主注释 #捷径 library(tinyarray) find_anno(gpl_number) #辅助写出找注释的代码 一般不影响,下载下来是有数据的 方法3 官网下载注释文件并读取 方法4 自主注释,了解一下 https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA 不是所有芯片注释都能找到
GEO数据挖掘4 sunqi 2020/7/12 概述 对GEO数据进行差异分析 简单比较 rm(list = ls()) options(stringsAsFactors = F) options(digits = 4) #设置全局的数字有效位数为4 load(file = 'step1-output.Rdata') #导入的数据中,dat为表达矩阵,group_list为分组信息 #按照group_list "jco", add = "jitter") # 添加p值 p + stat_compare_means()# 添加比较函数,默认使用wilcox } # 对4个样本的箱式图绘制 bp(dat[4,]) ? 结束语 这里对GEO数据的差异分析已经结束,后续为kegg和go分析 love&peace
引自生信技能树引自生信技能树DAY3三、数据结构——数据框1、数据框的来源(1)用代码新建(2)由已有数据转换或处理得到(3)读取表格文件(4)R语言内置数据注意:向量是一维的,且只存储一种数据类型;matrix #1.数据框来源# (1)用代码新建# (2)由已有数据转换或处理得到# (3)读取表格文件# (4)R语言内置数据#2.新建、读取数据框、内置数据df1 <- data.frame(gene = ,然后把它删掉rm(x)rm(df1,df2)rm(list = ls()) ctrl+l#清空控制台引自生信技能树DAY4练习题2-4# 练习2-4# 说明:运行load("gands.Rdata") #<-之间要有空格或打个括号,不然会被当成赋值符号2、R包介绍3、R包镜像引自生信技能书使用镜像,加快R包的下载,不用从大洋彼岸去下载4、R包的安装与来源(1)CRAN网站(2)Bioconductor sdlibrary(limma)browseVignettes("limma") #不是每个包都有ls("package:limma")5、R包的安装和使用逻辑引自生信技能书引自生信技能树练习题4-1#
练习1:plot可以简单理解为画图的函数runif#Runif是R语言中最常见的随机函数之一,用于生成随机数据。 它也被称为“均匀分布”,因为它按照指定的规则产生的数据是按照均匀分布的。 均匀分布的数据在某个范围内的每个位置都具有相同的概率。以iris内置数据集画箱线图,以length为纵坐标,species为横坐标2:字体设置学到新的知识跳转以后可自行修改,蛙去~牛啊生信星球公众号
如何利用ICGC数据库来寻找一个突变相关课题 昨天我们介绍了ICGC来浏览PCAWG数据的基本功能。昨天的那样介绍,稍微有一些零散,所以我们可以假设一个例子来使用ICGC数据库分析一下看一看。 这里我们以食管癌举例: 1.1 查看食管癌当中插入突变的结果 在ICGC的数据库的筛选栏当中,我们在 Donors中的样本类型当中选择食管,在Mutations中的突变类型选择插入。 的数据筛选和分析过程当中,我们可以获得三个不同癌种当中和插入突变有关的基因数据集。这个时候,我们可以对这三个数据集进行交叉分析。来寻找和三个癌种都有关系的突变基因。 ICGC提供了交叉分析的入口。 在这里我们选择Select就可以选择数据集进行交叉了。 ? 在Select里面选择我们之后筛选获得的三个数据集。点击Run即可获得结果。 ? 3.数据的进一步分析 经过上面的分析,我们发现了有269个基因的插入突变会影响。但是我们研究的话,不能把269个基因都进行研究的。所以要挑选一个来进行研究的。
boxplot(iris$Sepal.Length~iris$Species,col = c("lightblue","lightyellow","lightpink")注:iris是一个R语言自带的数据框 iris$Sepal.Length表示iris数据框的Sepal.Length这一列数据。以此类推。 生信星球调整字体大小图片1.新建project按红色框框图片设置工作目录:setwd()查看工作目录:getwd()2.显示文件列表dir()或 list.files()图片显示运算加减 1+2 回车乘方 abs(-3)赋值赋值符号用<-,这是小于号加上减号,也可以按Alt加上减号x<- 1+2 意思是把1+2的运算结果赋值给x, 赋值后,x会显示在右上角的框,Environment里的Value列表里生信星球删除变量 b <- 1c <- 4u <- 5+6rm(b)rm(u,c) rm(list = ls())#清空所有变量代码可以复制,更推荐的方式是用键盘上q前面的那个tab键补齐。
---title: "生信技能树学习笔记"引用自生信技能树author: "天空"date: "2023-01-02"output: html_document---一、函数和R包1. 当一个代码需要复制粘贴三次,就应该写成函数或使用循环jimmy <- function(i){ plot(iris[,i],col=iris[,5])}jimmy(1)jimmy(2)jimmy(3)jimmy(4) mirrors.tuna.tsinghua.edu.cn/bioconductor/ # 中科大镜像# http://mirrors.ustc.edu.cn/CRAN/# http://mirrors.ustc.edu.cn/bioc/4. 认清函数和数据图片10. 解决问题的秘诀图片
向量与标量相鉴别,标量只由一个元素组成,向量由多个元素组成,在R语言中,可以使用<-进行赋值,例如x<-seq(1,10,by=0.5)表示1-10之间每0.5取一个数从向量中提取元素x[4] #x第4 个元素x[-4]#排除法,除了第4个元素之外剩余的元素x[2:4]#第2到4个元素x[-(2:4)]#除了第2-4个元素x[c(1,5)] #第1个和第5个元素x[x==10]#等于10的元素x[x<0 ]x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素数据框read.table(file="",sep="",header=T/F)a<read.table(file="",sep c(a,b)]#第a列和第b列a$列名#也可以提取列(优秀写法,支持Tab自动补全哦,不过只能提取一列)plot(iris$Sepal.Length,iris$Sepal.Width)有几个问题,如果数据没处理完 ,或者a还没被赋值的时候,save a 会报错,提示找不到a;最后的plot,即是以R内置的iris数据中的两列数据作散点图,出现一个最基础的、x轴y轴一一对应的图像。