————————图片转载自小洁忘了怎么分身图片R/Rstudio图片数据类型与向量图片tab键、上下键、ctr+L(back)逻辑型数据图片转换和判断图片数据的结构图片脚本直接双击打开,数据要load加载向量的生成图片数据类型的转换优先顺序图片对单个向量进行操作图片赋值是实际改变文件的方法图片图片 、矩阵和列表向量是一维的矩阵是二维的图片lis列表t可装万物图片数据框的来源图片新建数据框图片从文件中读取(放在工作目录下)图片数据框的属性图片dim()多少行、多少列,nrow()多少行,ncol() 多少列,rownames()行名数据框取子集图片图片图片图片图片图片图片数据库数据框的修改图片图片图片图片图片图片图片矩阵新建和取子集(不支持$)图片矩阵的的转置、转换图片图片图片矩阵画热图图片图片列表的的新建和取子集图片 其他列保留输出图片图片图片图片条件语句和循环语句图片图片图片图片图片图片图片图片图片图片图片图片图片表达矩阵画箱线图图片图片图片图片图片图片round()指定小数点后几位图片图片图片隐式循环图片图片图片# 如何挑出100个数字中最大的10 sort(a)tail(a,3)tail(sort(a),10)head(sort(a,decreasing = T),10)load("test2.Rdata")a = apply(test,1,var
R语言:用函数处理数据R语言的命令提示符(有>代码才能运行)图片图片图片图片图片图片图片图片图片数值型字符不带引号;字符型带单引号或双引号;TRUE,FALSE需大写,NA means not available 判断数据类型的函数:class(), 将要判断的内容写在括号里图片看到Error中的unexpected,一般是代码有误some tips1 Tab-打出前几个字母即出现提示,按↑↓翻动,按Tab补全2 光标放在>后面,按↑键,即可修改上一条命令,按回车重新运行图片图片(格式重于内容)引用自生信技能树
(取子集)图片图片图片图片图片图片1、比较运算 2、数学计算 3、连接图片循环补齐发生的条件:等位运算;两个向量长度不相等图片图片图片图片图片unexpected是代码错误的关键词图片图片图片引用自生信技能树
下面是( GEO数据挖掘 )直播配套笔记 一、背景了解 芯片数据:首选limma 。 下载数据 #数据下载 rm(list = ls()) library(GEOquery) #先去网页确定是否是表达芯片数据,不是的话不能用本流程。 (Group,levels = c("control","RA")) Group #2.探针注释的获取----------------- #捷径 library(tinyarray) # 这个包为生信技能树老师所写 ="stable"] length(cg) }else{ #取前10上调和前10下调 library(dplyr) dat2 = dat %>% filter(change! ="stable") %>% arrange(logFC) cg = c(head(dat2$symbol,10), tail(dat2$symbol,10)) } n
考虑到咱们生信技能树粉丝对单细胞数据挖掘的需求,我开通了一个专栏《100个单细胞转录组数据降维聚类分群图表复现》,也亲自示范了几个,不过自己带娃,读博,时间精力有限,所以把剩余的90多个任务安排了学徒, 实习生,学员。 这次我们要复现的单细胞数据来自International Journal of Cancer 2020年发表的一篇单细胞相关的纯生信文章。该文章数据链接:GSE150321 2. 总结 1、单细胞数据复现可以提升自己对此类数据的理解和掌握。 (跟着生信技能树Jimmy老师学习进步太快了) 2、不同人处理单细胞数据时设置的参数会有所不同,作者并没有在文章中给出太多相关信息,导致最终的结果有所不同。
CpG位点,用4种不同的降维方法处理数据后构建分类器,并结合临床特征进行富集分析评估分类器的预测能力,为临床侵袭性乳腺癌的诊断提供帮助。 本篇文章中,作者用转移淋巴结的DNA甲基化数据研究乳腺癌的侵袭性。为了克服数据和转移性样本不足的问题,作者用一种基于DNA甲基化标志的新方法鉴定样本,并构建了一个识别侵袭性乳腺癌的分类器。 因此,如果一个样本与40个转移淋巴结间的最小距离比匹配样本间的最大距离大10个单位,就把样本定义为非侵袭性。最后,作者一共得到20例非侵袭性样本,和40例侵袭性样本以及40例正常样本组成训练集。 使用随机森林训练分类器,并用10折交叉验证证实其分类器的精度,结果表明4组训练精度都较好(表1),预测正常组织的精度高达99%,预测侵袭性的精度高达95%。 3.TCGA乳腺癌测试集验证分类器预测能力 作者进一步从TCGA下载了BRCA HM450 DNA甲基化数据和临床数据,用766个原发性乳腺癌样本和97个正常样本组成测试集。
文章所有内容均来自生信技能树“生信马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 1. 为什么要做数据挖掘 1.1 挖掘的数据从哪里来 图片 1.2 有什么可挖掘的数据类型 基因表达芯片、转录组、单细胞、表观遗传、突变…… 1.3 如何筛选基因 图片 2. GEO挖掘实操 4.1 GEO数据集的下载获取 4.1.1 GEO挖掘需要准备的package options("repos"="https://mirrors.ustc.edu.cn/CRAN/") = 100000) options(scipen = 20) #不要以科学计数法表示 scipen的数值代表阈值,默认1从10万开始,每加1阈值扩大10倍 #传统下载方式 library(GEOquery gpl_number <- eSet@annotation;gpl_number save(pd,exp,gpl_number,file = "step1output.Rdata") 以上内容均引用自生信技能树
差异分析表格二分组数据差异分析#差异分析 limmalibrary(limma)design = model.matrix(~Group) # 生成模型矩阵fit = lmFit(exp,design) ------------------------------------------library(ggplot2)ggplot(data = deg, aes(x = logFC, y = -log10 vline(xintercept=c(-logFC\_t,logFC\_t),lty=4,col="black",linewidth=0.8) + geom\_hline(yintercept = -log10 先把示例数据跑通,再把自己的数据改成示例数据的格式,最后修改参数。 clusterProfiler-book/index.html# GOplot:https://mp.weixin.qq.com/s/LonwdDhDn8iFUfxqSJ2Wew# 网上的资料和宝藏无穷无尽,学好R语言慢慢发掘~生信技能树
文章所有内容均来自生信技能树“生信马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 不一定可以找出 }else if(F){ # 第二种方法,眼睛数,自己生成--仅适用排列有序,每种分组都在一起 Group = rep(c("Disease","Normal"),each = 10 exp,Group,ids,file = "step2output.Rdata") 自主注释流程--了解即可 图片 3.PCA与heatmap的绘制 3.1 PCA图 ######清空环境,加载需要的数据 , scale = "row", #基因只在样本间对比,不跨行与其他基因对比 breaks = seq(-3,3,length.out = 100) #从-3到3生成 以上内容均引用自生信技能树
生信技能树 图表介绍 热图 散点图 箱线图 火山图 理解logFC 主成分分析 PCA样本聚类图 基因芯片差异分析的起点是一个取过log的表达矩阵,得到数据后先看下有没有取log GEO背景知识 数据库介绍 Home - GEO - NCBI (nih.gov) 分析思路 表达矩阵 代码分析流程 数据要求 分组信息和探针注释重点学习 安装包 options("repos"="https://mirrors.ustc.edu.cn 查找和下载数据 以GSE7305为例 网站点击链接下载 代码下载 #打破下载时间的限制,改前60秒,改后10w秒 options(timeout = 100000) options(scipen = (1)提取表达矩阵exp exp <- exprs(eSet) # exprs 提取数据的函数 dim(exp) # 多少行多少列 range(exp) # 看数据范围决定是否需要log,是否有负值,异常值 有现成的可以用来分组的列 Group = pd$ #列名 }else if(F){ # 第二种方法,眼睛数,自己生成 Group = rep(c("Disease","Normal"),each = 10
如何利用ICGC数据库来寻找一个突变相关课题 昨天我们介绍了ICGC来浏览PCAWG数据的基本功能。昨天的那样介绍,稍微有一些零散,所以我们可以假设一个例子来使用ICGC数据库分析一下看一看。 这里我们以食管癌举例: 1.1 查看食管癌当中插入突变的结果 在ICGC的数据库的筛选栏当中,我们在 Donors中的样本类型当中选择食管,在Mutations中的突变类型选择插入。 的数据筛选和分析过程当中,我们可以获得三个不同癌种当中和插入突变有关的基因数据集。这个时候,我们可以对这三个数据集进行交叉分析。来寻找和三个癌种都有关系的突变基因。 ICGC提供了交叉分析的入口。 在这里我们选择Select就可以选择数据集进行交叉了。 ? 在Select里面选择我们之后筛选获得的三个数据集。点击Run即可获得结果。 ? 3.数据的进一步分析 经过上面的分析,我们发现了有269个基因的插入突变会影响。但是我们研究的话,不能把269个基因都进行研究的。所以要挑选一个来进行研究的。
向量与标量相鉴别,标量只由一个元素组成,向量由多个元素组成,在R语言中,可以使用<-进行赋值,例如x<-seq(1,10,by=0.5)表示1-10之间每0.5取一个数从向量中提取元素x[4] #x第4 个元素x[-4]#排除法,除了第4个元素之外剩余的元素x[2:4]#第2到4个元素x[-(2:4)]#除了第2-4个元素x[c(1,5)] #第1个和第5个元素x[x==10]#等于10的元素x[x<0 ]x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素数据框read.table(file="",sep="",header=T/F)a<read.table(file="",sep c(a,b)]#第a列和第b列a$列名#也可以提取列(优秀写法,支持Tab自动补全哦,不过只能提取一列)plot(iris$Sepal.Length,iris$Sepal.Width)有几个问题,如果数据没处理完 ,或者a还没被赋值的时候,save a 会报错,提示找不到a;最后的plot,即是以R内置的iris数据中的两列数据作散点图,出现一个最基础的、x轴y轴一一对应的图像。
对于年龄在18至55岁之间的乳腺癌患者,如果最高级别在I期被发现,5年生存率为97%,可以通过适当的治疗治愈,而II期、III期和IV期的预期5年生存率分别为92%、77%和28%。 Dataset description 数据集描述 Para_10 我们从 GDC 门户网站(https://portal.gdc.cancer.gov/repository)收集了 TCGA-BRCA 我们评估了BRCA的前10个上调和前10个下调差异表达基因的生物学相关性,使用了信号通路和基因本体术语。 在这项分析中,我们使用了获得的差异表达基因中的前10个上调基因和前10个下调基因,通过包括KEGG、BioPlanet和BioCarta在内的五个全局通路数据库来识别信号通路。 首先,我们利用了TCGA数据集中基因表达数据的差异表达基因(DEGs),然后发现了20个差异表达基因,其中包括10个上调基因和10个下调基因(表1)。
int转换为整数,float转换为浮点数 用到的知识点 写程序 transferMultipleColumToMatrix.py 将文件(multipleColExpr.txt)中基因在多个组织中的表达数据转换为矩阵形式 (2分) reverse list(seq) 用到的知识点 写程序 collapsemiRNAreads.py转换smRNA-Seq的测序数据。 (10分) find 用到的知识点 输出格式 (输出格式为bed格式,第一列为匹配到的染色体,第二列和第三列为匹配到染色体序列的起始终止位置(位置标记以0为起始,代表第一个位置;终止位置不包含在内,第一个例子中所示序列的位置是
《如何系统入门R语言》这一篇微信文章是2017年2月写的了,距离现在7年,语言生动有趣跟现在的风格还有点不一样,那时候曾老师竟然一个个回点评还用颜文字嘞,而且17年就自称老一辈的生信工程师(难道现在是木乃伊辈的生信工程师 [,1]),]#得到按照dat的第一列进行排序的数据框dat[order(dat[,1],dat[,2]),] #得到先按照dat的第一列,再按照dat的第二轮进行排序的数据框求集合的交、并、补A<-1 :10B<-seq(5,15,2)C<-1:5#求A和B的并集union(A,B)#[1] 1 2 3 4 5 6 7 8 9 10 11 13 15#求A和B的交集intersect 4.R语言入门学习路径+资源集(生信篇)资源博,适合纯新手入门5.R语言的最好资源,一个就够! 【好书分享】《R语言实战(第2版)》就是《R语言实战》10.生信技巧第3课-请你务必学好R语言这里的视频似乎看不了了,主要的内容和生信马拉松的课程基本相同生信技能树
limma::normalizeBetweenArrays(exp),一般齐和非常齐之间拉平 有负值: a.取过log,有少量负值——正常(取log没加1,不影响使用) b.没取过log,有负值——错误数据 一个探针对应多个基因(非特异性探针),难以解释,这些行直接去掉 8、对于lnkRNA不能直接用页面上的TargetID,尽量寻找symbol列 9、官网下载对应产品的注释表格:往往是付费的,不能看到 10 ="";table(k2) ids = b[k1&k2,] 16、筛选下载数据中的部分样本进行数据分析 library(stringr) # 方法1:按照行号,能数的时候可以自己数行号 keep = c (1,2,5,6) exp = exp[,keep] pd = pd[keep,] # 方法2:按照逻辑值,根据自己的数据特点编写: # 可以是提取要保留的数据有的,也可以是不要的数据有的 # 无论如何设置 str_detect(pd$title,"and");table(keep) exp = exp[,keep] pd = pd[keep,] 总结: 小洁老师讲的真的非常好,细腻又形象,准备学生信的一定要来学一波让你丝滑入门
举个 AdaBoost 算法的例子:我们开始有3个弱学习器,我们将在一个包含病人数据的数据训练集上对他们做10轮训练。数据集里包含了病人的医疗记录各个细节。 在10轮结束的时候,我们剩下了一个带着不同权重的已经训练过的联合学习分类器,之后重复训练之前回合中被误分类的数据。 这是个监督还是非监督算法? 对于离散数据,解决方法是可以把离散数据转化为连续数据。给出两个例子: 1 使用汉明距离(Hamming distance )作为两个字符串紧密程度的测度。 10.CART 分类算法 算法是做什么的? CART 代表分类和回归树(classification and regression trees)。它是个决策树学习方法,同时输出分类和回归树。 原文来源:http://rayli.net/blog/data/top-10-data-mining-algorithms-in-plain-english/
在一份调查问卷中,三个独立专家小组投票选出的十大最有影响力的数据挖掘算法,今天我打算用简单的语言来解释一下。 为了做到这一点,需要给定 C4.5 表达内容已分类的数据集合。 等下,什么是分类器呢? 分类器是进行数据挖掘的一个工具,它处理大量需要进行分类的数据,并尝试预测新数据所属的类别。 关联规则学习是学习数据库中不同变量中的相互关系的一种数据挖掘技术。 在数据挖掘领域,最大期望算法(Expectation-Maximization,EM) 一般作为聚类算法(类似 kmeans 算法)用来知识挖掘。 算法的优势是:对于数据挖掘和聚类,观察到遗失的数据的这类数据点对我们来说很重要。我们不知道具体的类,因此这样处理丢失数据对使用 EM 算法做聚类的任务来说是很关键的。
生信技能树 科研图表介绍 图片 1.热图 图片 输入的数据是数值型矩阵/数据框 颜色变化表示数值的大小 一般冷色调表示小的数字,暖色调表示大的数字 热图中包括聚类树,因此热图中的行列顺序与原数据不同,但是行和列内的数据无变化 它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。 主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。 箱形图的绘制步骤: 1、画数轴,度量单位大小和数据批的单位一致,起点比最小值稍小,长度比该数据批的全距稍长。 2、画一个矩形盒,两端边的位置分别对应数据批的上下四分位数(Q3和Q1)。 相同值的数据点并列标出在同一数据线位置上,不同值的数据点标在不同数据线位置上。至此一批数据的箱形图便绘出了。统计软件绘制的箱形图一般没有标出内限和外限。
2 研究流程 人脑组织的MS表达谱数据从 Gene Expression Omnibus (GEO) 下载; 通过蛋白质注释数据库筛选细胞外蛋白质差异表达基因(EP-DEGs); GO和KEGG用于分析 图A:①HPA数据库中标注的编码胞外蛋白的基因与DEGs相交②Uniprot数据库中标注的编码胞外蛋白的基因与DEGs进行交叉筛③将两种方法结合起来,共获得133个EP-DEGs。 用最小的 P 值标记前 10 个上调和下调的基因。 图C:热图:SLC4A4、IL17A、ADH6、OSM和ADCY1在MS中显着下调,聚类距离接近。 图 7:EP-DEGs构建PPI网络及Hub基因的筛选; 表2:采用CytoHubba的10种拓扑分析方法获得Top10的EP-DEGs;共有4个基因,分别是IL17A、IL2、CD44、IGF1 本篇研究所用数据挖掘方法均可在我们的精品课程中学习和升级!