---title: "生信技能树学习笔记"引用自生信技能树author: "天空"date: "2023-01-02"output: html_document---一、文件读写1. V1## 1 id## 2 66e33592-2e6e-4e50-8a5b /ex1.txt",header = T)ex1[1:3,1:3]## id## 1 66e33592-2e6e-4e50-8a5b ## 2 nationwidechildrens.org_clinical.TCGA-W5-AA2O.xml b83ddabb84f4a71ad3fa95cae64d0b10## 3 nationwidechildrens.org_clinical.TCGA-W5 实战项目的组织方式之一图片5. 实战项目的组织方式之二图片6.
::opts_chunk$set(echo = TRUE,message=F,warning=F) R Markdown head(iris) plot(iris$Sepal.Length) 引用自生信技能树
见帮助文档export(ex1,file = "ex1.xlsx")注意:一定要经常检查数据,注意读取之后是数据框还是矩阵,取完列里面是数值还是字符,处理完是什么类型等等R语言能够读取多种文件格式 引用自生信技能树
作为列名给第一列定义为了数据列名里如果有特殊字符有时候也会被r语言自己检查,改为其他格式row.names = 1 把第一列 设置为行名字check.names = F 不要检查我的列名里的特殊字符数据框不允许重复的行名练习题5- mean.default(y[, 1]) : argument is not numeric or logical: returning NA > y[,1]GSM1 GSM2 GSM3 GSM4 GSM5 "QSeq ID" "Strand" "Source Seq Length" "/qseq_name"[5] RPKM"[17] "RA_LPS_1 - log2 total RPKM" "RA_LPS_2 - log2 total RPKM" "RA_LPS_3 - log2 total x2 = x1[,5:
5. stringAPP ? 6. BiNGO ? 因为这个cytoscape软件并不是很方便下载,而且上面大量的插件都比较麻烦,所以我们打包了它们在百度云盘和腾讯微云给大家,还包括一些图文并茂的教程,而且提供微信交流群方便大家互相帮助,分享高分文章的绚丽的网络图
Esc退出进入命令模式 : #进入行末模式 Esc退出进入命令模式 wq #在行末模式下,输入wq(退出保存) vimtutor zh_CN#查看中文帮助文档 3 生信常见格式 -S cat example.gtf | awk '/UTR/{print $0}' | less -S cat example.gtf | awk '/UTR/{print $7,$3,$4,$5, #定义记录分隔符 OFS#输出字段分隔符 ORS#输出记录分隔符 NF #列数 NR #行数 cat example.gtf | awk 'BEGIN{OFS=":"} {print $3,$4,$5} #官网安装包地址 wget -c https://mirrors.bfsu.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh #生信技能树安装包软链接地址 info -e conda env list # 每次运行前,激活创建的小环境rna conda activate rna # 退出小环境 conda deactivate 在小环境rna中安装生信软件
martL = mouse,uniqueRows = T) head(hsa2mus_all) length(hsaGeneInfo$symbol) nrow(hsa2mus_all) 5.
[]中括号里面的可以是逻辑值判断,可以是具体的值(即下标),可以是函数,可以是向量
数据结构向量(一串数据,数据框中单独拿出一列是向量,视为一个整体,一个向量只能有一种数据类型,可以有重复值)数据框(约等于表格,一列只能有一种数据类型)矩阵列表4.1 向量的生成c(2,3,15,5,7 )## [1] 2 3 15 5 7c(1:9)## [1] 1 2 3 4 5 6 7 8 9rep("x",times=3)## [1] "x" "x" "x"##有重复的用rep(),有规律的序列用 4.2 对单个向量进行操作#简单计算x<-c(1,3,5,6)log(x)## [1] 0.000000 1.098612 1.609438 1.791759sort(x,decreasing=T)## [1] 6 5 3 1##默认从小到大,T会变成从大到小常用函数:x<-c(1,3,5,6)var(x)#方差## [1] 4.916667sd(x)#标准差## [1] 2.217356length 重复值统计## x## 1 3 5 6 ## 1 1 1 1sort(x,decreasing=T)#排序##默认从小到大,T会变成从大到小## [1] 6 5 3 14.3 对两个向量进行操作 在R
sample$Titletitle## [1] "SS2_15_0048_A1" "SS2_15_0048_A2" "SS2_15_0048_A3" "SS2_15_0048_A4" ## [5] "SS2_15_0048_A5" "SS2_15_0048_A6" "SS2_15_0048_A7" "SS2_15_0048_A8" ## [9] "SS2_15_0048_A9" "SS2 [25] "SS2_15_0048_B1" "SS2_15_0048_B2" "SS2_15_0048_B3" "SS2_15_0048_B4" ## [29] "SS2_15_0048_B5" [49] "SS2_15_0048_C1" "SS2_15_0048_C2" "SS2_15_0048_C3" "SS2_15_0048_C4" ## [53] "SS2_15_0048_C5" #箱式图library(ggpubr)p5=ggboxplot(merge, x = "plate", y = "MBases", width = 0.8)p5图片图片p10=ggboxplot(merge
后起之秀奔涌而至,欢迎大家在《生信技能树》的舞台分享自己的心得体会! 从5'和3'相邻碱基(也称为侧翼碱基对或三核苷酸上下文)中获取信息会导致96种可能的突变类型(例如A [C> A] A,A [C> A] T等)。 ssGSEA GSEA分析,jimmy老师在《生信技能树》公众号多次讲解: GSEA分析一文就够(单机版+R语言版) GSEA的统计学原理试讲 GSVA或者GSEA各种算法都是可以自定义基因集的 但实际上 cells naive" # [3] "B cells memory" "Plasma cells" # [5] 07 0.02934341 # TCGA-4Z-AA7W-01A-11R-A39I-07 0.37869645 save(obj,file = 'output_obj.Rdata') step5.
customlayoutpatchwork:推荐使用导出:经典三段论ggsave(属于ggplot2)eoffice—topptx基础包:绘图函数plot(iris[,1],iris[,3],col = iris[,5] 放在同一种图里面;竖着切横着切和竖着切:先新增一列: dollar后面跟着新的列名: 取值数量有限且有重复值,可以按照列分开dat = irisdat$Group = sample(letters[1:5] mapping = aes(x = Sepal.Length, y = Petal.Length)) + facet_grid(Group ~ Species) sample(letters[1:5] ,150,replace = T)letters[1:5]#没有赋值也能够直接使用:是R中的内置数据letters[1:5],3:#随机取值a b c d e中的三个letters[1:5],6:#代码报错了 :样本数量不能大于总体的数量:replace = F;这时候改成replace = T就行了sample(letters[1:5],150,replace = T)不要修改内置数据!!
arrange(test, desc(Sepal.Length)) #从大到小 desc()
## 4 4 q.4 TRUE 5 6 ## 5 5 q.5 TRUE 6 7 ## 6 6 q.6 TRUE 7 8 ## 7 7 q.7 TRUE 8 ## 3 3 q.3 FALSE 4 5 6 ## 4 4 q.4 TRUE 5 6 7 ## 5 5 q.5 TRUE 6 7 8 ## 6 6 q.6 ## 3 4 6 ## 4 5 7 ## 5 6 8 ## 6 7 9 ## 7 8 10 ## 8 9 11 ## 9 10 12 ## 10 11 13 #5.使用 (参考B站生信小技巧获取runinfo table) SraRunTable <- read.table("http://www.bio-info-trainee.com/tmp/5years/SraRunTable.txt 7 9 13 9 9 8 6 8 16 9 11 2 5 6 9 ## [378] 10 10 7 14 6 10 4 1 4 9 5 11 7 14 5 4
+facet_grid(Group~species) #分面函数 横按照Group切分,竖着按照Species图片sample() #随机抽样sample(letters[1:5], 4) #随机表现在重复运行出的结果每次顺序都不一致
推荐): 仅保留在一半以上样本里表达的基因 exp = exp[apply(exp, 1, function(x) sum(x > 0) > 0.5*ncol(exp)), ] nrow(exp) 5.
---title: "生信技能树学习笔记"引用自生信技能树author: "天空"date: "2023-01-02"output: html_document---一、函数和R包1. 用函数代替复制粘贴图片#当一个代码需要复制粘贴三次,就应该写成函数或使用循环jimmy <- function(i){ plot(iris[,i],col=iris[,5])}jimmy(1)jimmy 记忆卡片图片5. 分情况讨论是否安装图片6. 获取R包帮助之一方法:这个不好记图片7. 列出xxR里面的函数图片8. R符号图片9. 认清函数和数据图片10. 解决问题的秘诀图片
---title: "生信技能树学习笔记"引用自生信技能树author: "天空"date: "2023-01-02"output: html_document---一、数据框、矩阵和列表1. ,-2,-4))df1## gene change score## 1 gene1 up 5## 2 gene2 up 3## 3 gene3 down df1[,3]## [1] 5 3 -2 -4df1[,ncol(df1)]## [1] 5 3 -2 -4#如何取数据框除了最后一列以外的其他列? 8## [3,] 3 6 9m[2,]## a b c ## 2 5 8m[,1]## [1] 1 2 3m[2,3]## c ## 8m[2:3,1:2]## a b## [1,] 2 5# # [2,] 3 6m## a b c## [1,] 1 4 7## [2,] 2 5 8## [3,] 3 6 99.
---title: "生信技能树学习笔记"author: "天空"date: "2023-01-04"output: html_document---R语言综合应用1. .R" ## [8] "7_<e4><b8>\u0080<e4><ba>\u009b顶<e5>\u0091<b1><e5>\u0091<b1><e7>\u009a\u0084<e5>\u0087 [17] "test2.Rdata" ## [18] "<e7>\u0094\u009f信< e6>\u008a\u0080<e8>\u0083<bd><e6><a0>\u0091<e7><ac>\u0094记day7.html" ## [19] "<e7>\u0094\u009f信<e6> .R" ## [8] "7_<e4><b8>\u0080<e4><ba>\u009b顶<e5>\u0091<b1><e5>\u0091<b1><e7>\u009a\u0084<e5>\u0087
subtype, y = expression) library(ggplot2) ggsave('plot-again-BRCA1-TCGA-BRCA-cbioportal.png') Task5: BLVRA CCNB1 CCNE1 CDC20 CDC6 CDCA1 CDH3 CENPF CEP55 CXXC5 EGFR ERBB2 ESR1 EXO1 FGFR4 FOXA1 FOXC1 GPR160 GRB7 KIF2C KNTC2 KRT14 KRT17 KRT5 MAPT MDM2 MELK MIA MKI67 MLPH MMP11 MYBL2 MYC NAT1 ORC6L PGR PHGDH BLVRA CCNB1 CCNE1 CDC20 CDC6 CDCA1 CDH3 CENPF CEP55 CXXC5 EGFR ERBB2 ESR1 EXO1 FGFR4 FOXA1 FOXC1 GPR160 GRB7 KIF2C KNTC2 KRT14 KRT17 KRT5 MAPT MDM2 MELK MIA MKI67 MLPH MMP11 MYBL2 MYC NAT1 ORC6L PGR PHGDH