Day2主要内容:向量一、向量生成二、单个向量操作三、两个向量操作四、向量筛选(取子集)图片图片图片图片图片图片1、比较运算 2、数学计算 3、连接图片循环补齐发生的条件:等位运算;两个向量长度不相等图片图片图片图片图片 unexpected是代码错误的关键词图片图片图片引用自生信技能树
————————图片转载自小洁忘了怎么分身图片R/Rstudio图片数据类型与向量图片tab键、上下键、ctr+L(back)逻辑型数据图片转换和判断图片数据的结构图片脚本直接双击打开,数据要load加载向量的生成图片数据类型的转换优先顺序图片对单个向量进行操作图片赋值是实际改变文件的方法图片图片 、矩阵和列表向量是一维的矩阵是二维的图片lis列表t可装万物图片数据框的来源图片新建数据框图片从文件中读取(放在工作目录下)图片数据框的属性图片dim()多少行、多少列,nrow()多少行,ncol() 多少列,rownames()行名数据框取子集图片图片图片图片图片图片图片数据库数据框的修改图片图片图片图片图片图片图片矩阵新建和取子集(不支持$)图片矩阵的的转置、转换图片图片图片矩阵画热图图片图片列表的的新建和取子集图片 l[[2]]:取第二个子集,再取矩阵的子集列表支持$图片图片数据结构的总结图片函数和R包图片图片图片图片图片图片图片图片图片图片R包图片图片1.CRAN网站图片2.bioconductor图片3.github sort(a)tail(a,3)tail(sort(a),10)head(sort(a,decreasing = T),10)load("test2.Rdata")a = apply(test,1,var
R语言:用函数处理数据R语言的命令提示符(有>代码才能运行)图片图片图片图片图片图片图片图片图片数值型字符不带引号;字符型带单引号或双引号;TRUE,FALSE需大写,NA means not available 判断数据类型的函数:class(), 将要判断的内容写在括号里图片看到Error中的unexpected,一般是代码有误some tips1 Tab-打出前几个字母即出现提示,按↑↓翻动,按Tab补全2 光标放在>后面,按↑键,即可修改上一条命令,按回车重新运行图片图片(格式重于内容)引用自生信技能树
下面是( GEO数据挖掘 )直播配套笔记 一、背景了解 芯片数据:首选limma 。 探针注释的获取----------------- #捷径 library(tinyarray) # 这个包为生信技能树老师所写 find_anno(gpl_number) ids <- AnnoProbe (2)热图:加载pheatmap()包,数据一般使用log(count+1),这样画出来的图较显著。 A1:需要差异分析后的数据,即DESeq2、edgeR、limma分析后的数据,需要使用logFC、P.Value。 data(geneList, package="DOSE") #(2)将我们的数据转换成示例数据的格式 geneList=deg$logFC names(geneList)=deg$ENTREZID
考虑到咱们生信技能树粉丝对单细胞数据挖掘的需求,我开通了一个专栏《100个单细胞转录组数据降维聚类分群图表复现》,也亲自示范了几个,不过自己带娃,读博,时间精力有限,所以把剩余的90多个任务安排了学徒, 实习生,学员。 这次我们要复现的单细胞数据来自International Journal of Cancer 2020年发表的一篇单细胞相关的纯生信文章。该文章数据链接:GSE150321 2. 总结 1、单细胞数据复现可以提升自己对此类数据的理解和掌握。 (跟着生信技能树Jimmy老师学习进步太快了) 2、不同人处理单细胞数据时设置的参数会有所不同,作者并没有在文章中给出太多相关信息,导致最终的结果有所不同。
CpG位点,用4种不同的降维方法处理数据后构建分类器,并结合临床特征进行富集分析评估分类器的预测能力,为临床侵袭性乳腺癌的诊断提供帮助。 本篇文章中,作者用转移淋巴结的DNA甲基化数据研究乳腺癌的侵袭性。为了克服数据和转移性样本不足的问题,作者用一种基于DNA甲基化标志的新方法鉴定样本,并构建了一个识别侵袭性乳腺癌的分类器。 3.TCGA乳腺癌测试集验证分类器预测能力 作者进一步从TCGA下载了BRCA HM450 DNA甲基化数据和临床数据,用766个原发性乳腺癌样本和97个正常样本组成测试集。 PCA分类器和FA分类器预测中HER2-和HER2+有显著意义。这些结果均证实分类器预测能力良好。 ? 结果表明2个位点位于基因体,剩下3个位点还没有注释,这5个位点可能成为乳腺癌转移的生物标志物。
文章所有内容均来自生信技能树“生信马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 1. 为什么要做数据挖掘 1.1 挖掘的数据从哪里来 图片 1.2 有什么可挖掘的数据类型 基因表达芯片、转录组、单细胞、表观遗传、突变…… 1.3 如何筛选基因 图片 2. 图片 1.芯片数据差异分析的起点是一个取过log的matrix,如果拿到的是未log得矩阵,需要自行log 2.P.Value值越小/-log10(P.Value)越大,越有信心认为差异显著 2.4 主成分分析 GEO挖掘实操 4.1 GEO数据集的下载获取 4.1.1 GEO挖掘需要准备的package options("repos"="https://mirrors.ustc.edu.cn/CRAN/") (exp)2.表达矩阵里的负值情况 ①取过log,有负值——正常 ②没取过log,有负值——错误数据 ③有一半负值——做了标准化 后两种情况一般弃用,非要用的话需要处理原始数据(不推荐新手操作) 附:不同格式原始数据的处理方法链接
差异分析表格二分组数据差异分析#差异分析 limmalibrary(limma)design = model.matrix(~Group) # 生成模型矩阵fit = lmFit(exp,design) fit = eBayes(fit)deg = topTable(fit,coef = 2,number = Inf)分组多代码更复杂为deg数据框添加几列1.加probe_id列,把行名变成一列library 先把示例数据跑通,再把自己的数据改成示例数据的格式,最后修改参数。 library(stringr)library(enrichplot)(1)输入数据gene_diff = deg$ENTREZID[deg$change ! # 网上的资料和宝藏无穷无尽,学好R语言慢慢发掘~生信技能树
文章所有内容均来自生信技能树“生信马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 str_detect(ids2$symbol,"///");table(k2) #去除非特异性探针格子 ids2 = ids2[ k1 & k2,] # ids = ids2 } # 方法3 官网下载注释文件并读取 step2output.Rdata")#输入数据:exp和Group #Principal Component Analysis(PCA的全称) #http://www.sthda.com/english , scale = "row", #基因只在样本间对比,不跨行与其他基因对比 breaks = seq(-3,3,length.out = 100) #从-3到3生成 以上内容均引用自生信技能树
权限控制多用户的权限控制命令行模式linux的操作靠命令行来实现目录结构文件系统呈树状,宿主目录放在home目录下2.为什么学生信要用linux? : cannot remove 'test2': No such file or directorybio09@ecm-cefa:~$ rm test2.txtrm: cannot remove 'test2 : cannot remove 'test2': No such file or directorybio09@ecm-cefa:~/lidahuang/test$ cd test2-bash: cd: test2: No such file or directorybio09@ecm-cefa:~/lidahuang/test$ rm test2.txtrm: cannot remove 'test2 .txt': No such file or directorybio09@ecm-cefa:~/lidahuang/test$ cat test2cat: test2: No such file or
生信技能树 图表介绍 热图 散点图 箱线图 火山图 理解logFC 主成分分析 PCA样本聚类图 基因芯片差异分析的起点是一个取过log的表达矩阵,得到数据后先看下有没有取log GEO背景知识 数据库介绍 ', getGPL = F) #网速太慢,下不下来怎么办 #1.从网页上下载/发链接让别人帮忙下,放在工作目录里 #2.试试geoChina,只能下载2019年前的表达芯片数据 #library(AnnoProbe db) ls("package:hgu133plus2.db") #列出R包里都有啥 ids <- toTable(hgu133plus2SYMBOL) #把R包里的注释表格变成数据框 } 方法 ,不行就换个数据 保存运行结果 save(exp,Group,ids,file = "step2output.Rdata") 画PCA图和热图 rm(list = ls()) load(file = "step2output.Rdata") #输入数据:exp和Group #Principal Component Analysis #http://www.sthda.com/english/articles
title: "noteH" output: html_document date: "2023-02-06" class 2 2.1数据类型转换的优先顺序: 数值型会转变成字符型 c(1,"a") seq(from = 2,to = 15,by = 2) ## [1] 2 4 6 8 10 12 14 # 2.生成向量,内容为:"student2" "student4" "student6 " # 3.将两种不同类型的数据用c()组合在一起,看输出结果 c(1,"a") ## [1] "1" "a" c(TRUE,"a") ## [1] "TRUE" "a" c(1,TRUE) ## [1 seq(2,100,2) ## [1] 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 z = rnorm(n=10,mean=0,sd=18) z[z<(-2)] ## [1] -4.657298 -8.565170 -18.576409 -2.250447 引自生信技能树 This
① 服务于supercomputer的OS② 开源,能方便运行大量数据2、常用linux代码pwd #显示当前路径mkdir … #创建空目录ls #显示列表rm … #删除文件rmdir head … #显示前10行tail … #显示后10行head -n3 … #显示前3行|3可替换tail -n3 … #显示后3行cp file1 file2 #复制file1,命名file2mv #移动或重命名图片生信星球学习小组
图片——来源:生信星球2.为什么学生信要用linux?(1)生物软件基于linux,系统开源、免费,不需要图形界面,有效节约资源。(2)命令行模式可以批量、高效地处理文件,满足数据分析的要求。 3.怎样召唤linux--阿里云服务器(1)单纯linux,用U盘安装一下纯linux系统,推荐CentOS或者Ubuntu整个过程大概只需要20分钟;(2)Windows10上的linux(3)本地服务器上的 同时安装Xftp如何登录生信星球https://www.jianshu.com/p/8a340b103a411.ip地址。ip是代表服务器的一个“编号”。2.用户名。bio开头的那个3.密码。
如何利用ICGC数据库来寻找一个突变相关课题 昨天我们介绍了ICGC来浏览PCAWG数据的基本功能。昨天的那样介绍,稍微有一些零散,所以我们可以假设一个例子来使用ICGC数据库分析一下看一看。 这里我们以食管癌举例: 1.1 查看食管癌当中插入突变的结果 在ICGC的数据库的筛选栏当中,我们在 Donors中的样本类型当中选择食管,在Mutations中的突变类型选择插入。 2. 多癌种交叉分析 在?的数据筛选和分析过程当中,我们可以获得三个不同癌种当中和插入突变有关的基因数据集。这个时候,我们可以对这三个数据集进行交叉分析。来寻找和三个癌种都有关系的突变基因。 在这里我们选择Select就可以选择数据集进行交叉了。 ? 在Select里面选择我们之后筛选获得的三个数据集。点击Run即可获得结果。 ? 3.数据的进一步分析 经过上面的分析,我们发现了有269个基因的插入突变会影响。但是我们研究的话,不能把269个基因都进行研究的。所以要挑选一个来进行研究的。
title=sample$Titletitle## [1] "SS2_15_0048_A1" "SS2_15_0048_A2" "SS2_15_0048_A3" "SS2_15_0048_A4 25] "SS2_15_0048_B1" "SS2_15_0048_B2" "SS2_15_0048_B3" "SS2_15_0048_B4" ## [29] "SS2_15_0048_B5" x = "MBases", fill = "plate", add = "mean", rug = TRUE)p7图片图片#14、随机取384个MBases信息,跟前面的两个plate的信息组合成新的数据框 ,第一列是分组,第二列是MBases,总共是384*3行数据。 #str()函数的作用用英语来表示是:check classification of viriables,一般用于检查数据框当中有哪些数据
: 复制 cp 原文件名字+新命名文件名 cp hi.txt hihi.txt 图片 mv: 给文件重命名或者移动文件路径 mv hi.txt 路径 意思是移动hi文件到某路径下 mv hi1 hi2 意思是给hi1重命名为hi2 图片
而不像微软的电脑用windows,苹果用mac,所以Linux需要一个服务器来载起它,不需要专门的电脑和它匹配,这个服务器就像配备精良的高端电脑 登录 登录成功了,但是没有理解1-9的练习内容 代码引用生信星球 就是从第四以后就感觉很奇怪,老师说的和我有运行的是两个东西 练习后的截图,有不对的请指正 1.print working directory(pwd),显示当前路径 /home/bio07 是我的当前路径 2. 而不需要每次都用ls查看 6.7芜湖~有趣 8:使用:cp file1 file2 ,复制file1,命名为file2的意思。 9.每个命令中间都要打空格吗,不打是不是就报错?
在R语言中,可以使用<-进行赋值,例如x<-seq(1,10,by=0.5)表示1-10之间每0.5取一个数从向量中提取元素x[4] #x第4个元素x[-4]#排除法,除了第4个元素之外剩余的元素x[2: 4]#第2到4个元素x[-(2:4)]#除了第2-4个元素x[c(1,5)] #第1个和第5个元素x[x==10]#等于10的元素x[x<0]x[x %in% c(1,2,5)]#存在于向量c(1,2, 5)中的元素数据框read.table(file="",sep="",header=T/F)a<read.table(file="",sep="",header=T/F)colnames(a) #查看列名 c(a,b)]#第a列和第b列a$列名#也可以提取列(优秀写法,支持Tab自动补全哦,不过只能提取一列)plot(iris$Sepal.Length,iris$Sepal.Width)有几个问题,如果数据没处理完 ,或者a还没被赋值的时候,save a 会报错,提示找不到a;最后的plot,即是以R内置的iris数据中的两列数据作散点图,出现一个最基础的、x轴y轴一一对应的图像。
Day1引自生信技能树一、R与Rstudio1、什么是R编程语言;环境2、什么是Rstuio集成开发环境3、如何在Rstuio中新建项目project引自生信技能树4、新建脚本script引自生信技能树 5、Rstuio介绍引自生信技能树6、面板显示和字号设置引自生信技能树引自生信技能树7、与R语言交互(1)控制台窗口(2)脚本编辑器(逐行运行ctrl+enter;选中运行ctrl+A)(3)使用“#” 二、数据类型1、数值型numeric2、字符型character,要加引号3、逻辑型logical(TRUE、FALSE、NA)4、判断数据类型用函数class()代码class("Jimmy")5、变量的赋值 8、数据类型的判断和转换(1)is族函数,判断,返回值为T/F代码is.numeric()/is.logical()/is.character()(2)as族函数实现数据类型之间的转换代码as.numeric (2)数学计算(3)连接(4)交集、并集、差集引自生信技能树引自生信技能树老师提问:若两边的y各增加一个元素2,那么两边产生的逻辑值的个数分别为5和4。