::opts_chunk$set(echo = TRUE,message=F,warning=F) R Markdown head(iris) plot(iris$Sepal.Length) 引用自生信技能树
《如何系统入门R语言》这一篇微信文章是2017年2月写的了,距离现在7年,语言生动有趣跟现在的风格还有点不一样,那时候曾老师竟然一个个回点评还用颜文字嘞,而且17年就自称老一辈的生信工程师(难道现在是木乃伊辈的生信工程师 1]),]#得到按照dat的第一列进行排序的数据框dat[order(dat[,1],dat[,2]),] #得到先按照dat的第一列,再按照dat的第二轮进行排序的数据框求集合的交、并、补A<-1:10B <-seq(5,15,2)C<-1:5#求A和B的并集union(A,B)#[1] 1 2 3 4 5 6 7 8 9 10 11 13 15#求A和B的交集intersect(A,B 4.R语言入门学习路径+资源集(生信篇)资源博,适合纯新手入门5.R语言的最好资源,一个就够! 【好书分享】《R语言实战(第2版)》就是《R语言实战》10.生信技巧第3课-请你务必学好R语言这里的视频似乎看不了了,主要的内容和生信马拉松的课程基本相同生信技能树
行 tail #查看文档末尾,默认10行 more #逐页查看文档内容 less #逐页查看文档内容,more的plus版 wc #统计文本的行数 cut #文本切割 sort #排序 uniq Esc退出进入命令模式 : #进入行末模式 Esc退出进入命令模式 wq #在行末模式下,输入wq(退出保存) vimtutor zh_CN#查看中文帮助文档 3 生信常见格式 #官网安装包地址 wget -c https://mirrors.bfsu.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh #生信技能树安装包软链接地址 info -e conda env list # 每次运行前,激活创建的小环境rna conda activate rna # 退出小环境 conda deactivate 在小环境rna中安装生信软件 "gene5" [6] "gene6" "gene7" "gene8" "gene9" "gene10" Python $ cat test.py #!
其他列保留输出图片图片图片图片条件语句和循环语句图片图片图片图片图片图片图片图片图片图片图片图片图片表达矩阵画箱线图图片图片图片图片图片图片round()指定小数点后几位图片图片图片隐式循环图片图片图片# 如何挑出100个数字中最大的10 sort(a)tail(a,3)tail(sort(a),10)head(sort(a,decreasing = T),10)load("test2.Rdata")a = apply(test,1,var
"在R语言中是命令提示符()前面的单词是函数getwd()获取绝对路径路径补充文件在桌面上,不在工作目录下,怎样读取绝对路径,换了电脑就读不成功x1 = read.csv("C:/Users/win10 student",times=7),seq(from=2,to=15,by=2))## [1] "student2" "student4" "student6" "student8" "student10
#10.把前面读取的样本信息表格的样本名字根据下划线分割看第3列元素的统计情况。第三列代表该样本所在的plate#plate指384孔PCR板,编号分别是48号和49号。 _A5" "SS2_15_0048_A6" "SS2_15_0048_A7" "SS2_15_0048_A8" ## [9] "SS2_15_0048_A9" "SS2_15_0048_A10 _B5" "SS2_15_0048_B6" "SS2_15_0048_B7" "SS2_15_0048_B8" ## [33] "SS2_15_0048_B9" "SS2_15_0048_B10 _C5" "SS2_15_0048_C6" "SS2_15_0048_C7" "SS2_15_0048_C8" ## [57] "SS2_15_0048_C9" "SS2_15_0048_C10 10 SS2_15_0049_A15## 324 0048 10 SS2_15_0048_N12## 664 0049 7 SS2_15_0049_L16## 677 0049
后起之秀奔涌而至,欢迎大家在《生信技能树》的舞台分享自己的心得体会! ssGSEA GSEA分析,jimmy老师在《生信技能树》公众号多次讲解: GSEA分析一文就够(单机版+R语言版) GSEA的统计学原理试讲 GSVA或者GSEA各种算法都是可以自定义基因集的 但实际上 Jimmy老师文中所说的一个细胞在样本中的表达量是该基因在不同细胞亚群表达水平与细胞分数权重的线性组合, SVM 释义来源自https://www.jiqizhixin.com/articles/2018-10 -17-20与https://tangshusen.me/2018/10/27/SVM/,SVM就是一种二类分类模型,他的基本模型是的定义在特征空间上的间隔最大的线性分类器,SVM的学习策略就是间隔最大化 的话 mypalette_1<-brewer.pal(10,"Set1") image(1:10,1,as.matrix(1:10),col=mypalette_1,xlab="Greens (sequential
2.在R包homologene里有张基因对应表 同时已经有可以转换的代码可用 homologene(genes, inTax, outTax) genes:需要查找同源基因的基因列表 inTax:输入基因所属物种 outTax:查找的同源基因属于那个物种
arrange(test, desc(Sepal.Length)) #从大到小 desc()
## 9 9 q.9 TRUE 10 11 ## 10 10 q.10 TRUE 11 12 m3$f=c(4:13) m3 ## a b c d e f ## ## 8 8 q.8 TRUE 9 10 11 ## 9 9 q.9 TRUE 10 11 12 ## 10 10 q.10 TRUE 11 12 13 m6=m3[,c(4,6) (参考B站生信小技巧获取runinfo table) SraRunTable <- read.table("http://www.bio-info-trainee.com/tmp/5years/SraRunTable.txt 9 ## [378] 10 10 7 14 6 10 4 1 4 9 5 11 7 14 5 4 15 15 17 17 9 10 10 11 10 14 0 16 14 # 10 10 25 24 21 12 8 13 12 61 14 36 10 4 9 13 16 3 ## [697] 10 13 11 2 8 12 10 3 2 7 14 11 11
---title: "生信技能树学习笔记"引用自生信技能树author: "天空"date: "2023-01-02"output: html_document---一、文件读写1. 740edde27e113bca1454defaffe50378## 3 nationwidechildrens.org_clinical.TCGA-W5-AA2O.xml b83ddabb84f4a71ad3fa95cae64d0b10ex1 740edde27e113bca1454defaffe50378## 2 nationwidechildrens.org_clinical.TCGA-W5-AA2O.xml b83ddabb84f4a71ad3fa95cae64d0b10
如果代码可以运行但是不出图,可能是因为画板被占用,可以多次dev.off()关闭画板
normal) table(str_sub(colnames(exp),14,15)) Group = ifelse(as.numeric(str_sub(colnames(exp),14,15)) < 10 'collect') &theme(legend.position = "none") ggsave(paste0(proj,"_heat_vo.png"),width = 15,height = 10 down.plot+ plot_layout(guides = "collect") ggsave(paste0(proj,"_heat_ve_pca.png"),width = 15,height = 10
---title: "生信技能树学习笔记"引用自生信技能树author: "天空"date: "2023-01-02"output: html_document---一、函数和R包1. 认清函数和数据图片10. 解决问题的秘诀图片
---title: "生信技能树学习笔记"引用自生信技能树author: "天空"date: "2023-01-02"output: html_document---一、数据框、矩阵和列表1. "array"m1 <- as.data.frame(m)m1## a b c## 1 1 4 7## 2 2 5 8## 3 3 6 9class(m1)## [1] "data.frame"10
---title: "生信技能树学习笔记"author: "天空"date: "2023-01-04"output: html_document---R语言综合应用1. [1] 1# 区分字符型向量和字符串y = c("jimmy 150","nicker 140","tony 152")length(y)## [1] 3str_length(y)## [1] 9 10 ><e6>\u0095<b0>.R"## [9] "8_exercise.R" ## [10 [17] "test2.Rdata" ## [18] "<e7>\u0094\u009f信< e6>\u008a\u0080<e8>\u0083<bd><e6><a0>\u0091<e7><ac>\u0094记day7.html" ## [19] "<e7>\u0094\u009f信<e6>
) list(hugene10sttranscriptcluster.db) ###find the corresponding genes for the probes ids <- toTable( hugene10sttranscriptclusterSYMBOL) ids[match(max_mad, ids$probe_id),] #或者 select(hugene10sttranscriptcluster.db Task10 这部分内容参考http://www.bio-info-trainee.com/bioconductor_China/software/limma.html 下载数据集GSE42872 ) ids <- toTable(hugene10sttranscriptclusterSYMBOL) dim(ids) dim(dat) # > dim(ids) # [1] 19827 2 ) ids <- toTable(hugene10sttranscriptclusterSYMBOL) deg_mtx$probe_id <- rownames(deg_mtx) deg_mtx <-
probe_id' ) rownames(exp_ids) <- exp_ids$symbol exp_sym <- exp_ids[,-c(1:3)] 11 画第一个样本和所有样本的基于表达量的图 对第10 ) class(deg_t.test) 19.使用limma包筛选差异DEGs 对表达矩阵及样本分组信息进行差异分析,得到差异分析表格, 重点看logFC和P值,画个火山图(就是logFC和-log10 of down gene is ',nrow(DEG[DEG$change =='DOWN',]) ) 第三步,画图 g = ggplot(data=DEG, aes(x=logFC, y=-log10 size=1.75) + theme_set(theme_set(theme_bw(base_size=20)))+ xlab("log2 fold change") + ylab("-log10 第四步,画个漂亮的图 P_volcano=ggplot(DEG,aes(x=logFC,y=-log10(P.Value)))+ geom_point(aes(color=change))+ #
unexpected,一般是代码有误some tips1 Tab-打出前几个字母即出现提示,按↑↓翻动,按Tab补全2 光标放在>后面,按↑键,即可修改上一条命令,按回车重新运行图片图片(格式重于内容)引用自生信技能树
x2 = str_split(x," ")[[1]];x2 #是list 所以用[[]]