::opts_chunk$set(echo = TRUE,message=F,warning=F) R Markdown head(iris) plot(iris$Sepal.Length) 引用自生信技能树
---title: "生信技能树学习笔记"author: "天空"date: "2023-01-04"output: html_document---R语言综合应用1. ## [7] "6_两个<e6>\u0095<b0><e6>\u008d<ae><e6><a1>\u0086<e7>\u009a\u0084<e8><bf>\u009e<e6>\u008e<a5>.R " ## [8] "7_<e4><b8>\u0080<e4><ba>\u009b顶<e5>\u0091<b1><e5>\u0091<b1><e7>\u009a\u0084<e5>\u0087< \u0094\u009f信<e6>\u008a\u0080<e8>\u0083<bd><e6><a0>\u0091<e7><ac>\u0094记day7.html" ## [19] "<e7>\u0094 \u009f信<e6>\u008a\u0080<e8>\u0083<bd><e6><a0>\u0091<e7><ac>\u0094记day7.Rmd"dir(pattern = ".R$") #列出工作目录下以
x2 = str_split(x," ")[[1]];x2 #是list 所以用[[]]
-c #统计字节数,空格也算 cut #文本切割 -d #默认分隔符,\t -f #输出哪几列 less -S Data/example.gtf | cut -f 1,3-5,7 Esc退出进入命令模式 : #进入行末模式 Esc退出进入命令模式 wq #在行末模式下,输入wq(退出保存) vimtutor zh_CN#查看中文帮助文档 3 生信常见格式 }' | less -S cat example.gtf | awk '/UTR/{print $0}' | less -S cat example.gtf | awk '/UTR/{print $7, _64.sh #生信技能树安装包软链接地址 cd ~ ln -s /home/t_linux/Miniconda3-latest-Linux-x86_64.sh ./ #安装 输入yes或者enter info -e conda env list # 每次运行前,激活创建的小环境rna conda activate rna # 退出小环境 conda deactivate 在小环境rna中安装生信软件
[]中括号里面的可以是逻辑值判断,可以是具体的值(即下标),可以是函数,可以是向量
数据结构向量(一串数据,数据框中单独拿出一列是向量,视为一个整体,一个向量只能有一种数据类型,可以有重复值)数据框(约等于表格,一列只能有一种数据类型)矩阵列表4.1 向量的生成c(2,3,15,5,7) ## [1] 2 3 15 5 7c(1:9)## [1] 1 2 3 4 5 6 7 8 9rep("x",times=3)## [1] "x" "x" "x"##有重复的用rep(),有规律的序列用 等位运算(2)向量长度不相等以长的为主paste0("student",seq(2,5,2))## [1] "student2" "student4"paste0(rep("student",times=7)
_A2" "SS2_15_0048_A3" "SS2_15_0048_A4" ## [5] "SS2_15_0048_A5" "SS2_15_0048_A6" "SS2_15_0048_A7" _B2" "SS2_15_0048_B3" "SS2_15_0048_B4" ## [29] "SS2_15_0048_B5" "SS2_15_0048_B6" "SS2_15_0048_B7" _C2" "SS2_15_0048_C3" "SS2_15_0048_C4" ## [53] "SS2_15_0048_C5" "SS2_15_0048_C6" "SS2_15_0048_C7" _D2" "SS2_15_0048_D3" "SS2_15_0048_D4" ## [77] "SS2_15_0048_D5" "SS2_15_0048_D6" "SS2_15_0048_D7" _E2" "SS2_15_0048_E3" "SS2_15_0048_E4" ## [101] "SS2_15_0048_E5" "SS2_15_0048_E6" "SS2_15_0048_E7"
后起之秀奔涌而至,欢迎大家在《生信技能树》的舞台分享自己的心得体会! ssGSEA GSEA分析,jimmy老师在《生信技能树》公众号多次讲解: GSEA分析一文就够(单机版+R语言版) GSEA的统计学原理试讲 GSVA或者GSEA各种算法都是可以自定义基因集的 但实际上 Plasma cells" # [5] "T cells CD8" "T cells CD4 naive" # [7] 0 0.00000000 # TCGA-GU-A42P-01A-11R-A23W-07 0.1414380 0 0.03075805 # TCGA-4Z-AA7W 0.11688532 # TCGA-DK-A3IM-01A-11R-A20F-07 0.04647556 # TCGA-GU-A42P-01A-11R-A23W-07 0.02934341 # TCGA-4Z-AA7W
2.在R包homologene里有张基因对应表 同时已经有可以转换的代码可用 homologene(genes, inTax, outTax) genes:需要查找同源基因的基因列表 inTax:输入基因所属物种 outTax:查找的同源基因属于那个物种
arrange(test, desc(Sepal.Length)) #从大到小 desc()
## 6 6 q.6 TRUE 7 8 ## 7 7 q.7 TRUE 8 9 ## 8 8 q.8 TRUE 9 10 ## 9 9 q.9 TRUE 10 ## 5 5 q.5 TRUE 6 7 8 ## 6 6 q.6 TRUE 7 8 9 ## 7 7 q.7 TRUE 8 9 10 ## 8 8 q.8 (参考B站生信小技巧获取runinfo table) SraRunTable <- read.table("http://www.bio-info-trainee.com/tmp/5years/SraRunTable.txt 19 15 3 4 4 5 8 11 16 8 7 18 19 8 16 ## [349] 7 15 12 11 11 15 19 7 10 13 4 5 11 7 7 5 11 7 16 10 13 16 20 10 ## [465] 18 16 4 17 13 7 7 14 10 8 15 5 17 9 7 14 16 15 20 1 19 18
---title: "生信技能树学习笔记"引用自生信技能树author: "天空"date: "2023-01-02"output: html_document---一、文件读写1. V1## 1 id## 2 66e33592-2e6e-4e50-8a5b-8a3f902eb2b5## 3 142aea0e-7a7b 3,1:3]## id## 1 66e33592-2e6e-4e50-8a5b-8a3f902eb2b5## 2 142aea0e-7a7b /soft.txt",header = T,fill = T) #其实不对soft2 <- read.table("day3/R_02/soft.txt",header = T,sep = "\t")7.
如果还是不行可以重启R studio & 电脑⑥神器eoffice导出library(eoffice)topptx(p, 'xxx.pptx') #导出的图片可以通过取消组合来局部修改#注意元素个数不能过多7️⃣
因为是癌症方面,自己不研究这一方面,所以不常用,但是GEO的转录组数据,是根据这个文件改写的
---title: "生信技能树学习笔记"引用自生信技能树author: "天空"date: "2023-01-02"output: html_document---一、函数和R包1. 获取R包帮助之一方法:这个不好记图片7. 列出xxR里面的函数图片8. R符号图片9. 认清函数和数据图片10. 解决问题的秘诀图片
---title: "生信技能树学习笔记"引用自生信技能树author: "天空"date: "2023-01-02"output: html_document---一、数据框、矩阵和列表1. 矩阵新建和取子集图片m <- matrix(1:9, nrow = 3)colnames(m) <- c("a","b","c") #加列名m## a b c## [1,] 1 4 7## [ 矩阵的转置和转换图片t(m)## [,1] [,2] [,3]## a 1 2 3## b 4 5 6## c 7 8 9class(m)## [1] "matrix" "array"m1 <- as.data.frame(m)m1## a b c## 1 1 4 7## 2 2 5 8## 3 3 6 9class(m1)## [1] " 9l[[2]]## [,1] [,2] [,3] [,4]## [1,] 2 4 6 8## [2,] 3 5 7 9l$m1## [
CCNB1 CCNE1 CDC20 CDC6 CDCA1 CDH3 CENPF CEP55 CXXC5 EGFR ERBB2 ESR1 EXO1 FGFR4 FOXA1 FOXC1 GPR160 GRB7 CCNB1 CCNE1 CDC20 CDC6 CDCA1 CDH3 CENPF CEP55 CXXC5 EGFR ERBB2 ESR1 EXO1 FGFR4 FOXA1 FOXC1 GPR160 GRB7 heat_expr+1) pheatmap::pheatmap(heat_expr, scale = 'row') ggcorrplot::ggcorrplot(cor(heat_expr)) Task7: GEO下载表达矩阵做样本的相关性热图,需要标记样本分组信息 作业7 下载数据集GSE24673的表达矩阵计算样本的相关性并且绘制热图,需要标记上样本分组信息 数据地址https://www.ncbi.nlm.nih.gov
7.找到芯片有而hgu95av2.db中没有对应基因名的探针 第二步提取到的表达矩阵是12625个探针在22个样本的表达量矩阵, 找到那些不在 hgu95av2.db 包收录的对应着SYMBOL的探针 upset upset(upset_all, nsets = 7, matrix.color = 'black',main.bar.color = 'green', sets.bar.color ) library(factoextra) fviz_dend(hc, k=4, cex = 0.5, k_colors = c("#2E9FDF", "#00AFBB", "#E7B800
unexpected,一般是代码有误some tips1 Tab-打出前几个字母即出现提示,按↑↓翻动,按Tab补全2 光标放在>后面,按↑键,即可修改上一条命令,按回车重新运行图片图片(格式重于内容)引用自生信技能树
见帮助文档export(ex1,file = "ex1.xlsx")注意:一定要经常检查数据,注意读取之后是数据框还是矩阵,取完列里面是数值还是字符,处理完是什么类型等等R语言能够读取多种文件格式 引用自生信技能树