首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 技能树Day9 GEO数据挖掘 差异分析

    差异分析表格二分组数据差异分析#差异分析 limmalibrary(limma)design = model.matrix(~Group) # 生成模型矩阵fit = lmFit(exp,design) fit = eBayes(fit)deg = topTable(fit,coef = 2,number = Inf)分组多代码更复杂为deg数据框添加几列1.加probe_id列,把行名变成一列library 先把示例数据跑通,再把自己的数据改成示例数据的格式,最后修改参数。 ggthemes)library(org.Hs.eg.db)library(dplyr)library(ggplot2)library(stringr)library(enrichplot)(1)输入数据 clusterProfiler-book/index.html# GOplot:https://mp.weixin.qq.com/s/LonwdDhDn8iFUfxqSJ2Wew# 网上的资料和宝藏无穷无尽,学好R语言慢慢发掘~技能树

    70611编辑于 2024-04-21
  • 来自专栏叶潭生信笔记

    技能树数据挖掘笔记

    ————————图片转载自小洁忘了怎么分身图片R/Rstudio图片数据类型与向量图片tab键、上下键、ctr+L(back)逻辑型数据图片转换和判断图片数据的结构图片脚本直接双击打开,数据要load加载向量的生成图片数据类型的转换优先顺序图片对单个向量进行操作图片赋值是实际改变文件的方法图片图片 中括号的作用可以把T挑选处理,丢弃F图片[]中括号里面的可以是逻辑值判断,可以是具体的值(即下标),可以是函数,可以是向量图片图片图片图片如何修改向量中的某个或者某些元素图片图片简单的向量作图图片图片数据框 、矩阵和列表向量是一维的矩阵是二维的图片lis列表t可装万物图片数据框的来源图片新建数据框图片从文件中读取(放在工作目录下)图片数据框的属性图片dim()多少行、多少列,nrow()多少行,ncol() 多少列,rownames()行名数据框取子集图片图片图片图片图片图片图片数据数据框的修改图片图片图片图片图片图片图片矩阵新建和取子集(不支持$)图片矩阵的的转置、转换图片图片图片矩阵画热图图片图片列表的的新建和取子集图片 l[[2]]:取第二个子集,再取矩阵的子集列表支持$图片图片数据结构的总结图片函数和R包图片图片图片图片图片图片图片图片图片图片R包图片图片1.CRAN网站图片2.bioconductor图片3.github

    1.1K10编辑于 2023-02-08
  • 技能树 Day8 9 GEO数据挖掘 基因芯片数据

    技能树 图表介绍 热图 散点图 箱线图 火山图 理解logFC 主成分分析 PCA样本聚类图 基因芯片差异分析的起点是一个取过log的表达矩阵,得到数据后先看下有没有取log GEO背景知识 数据库介绍 Home - GEO - NCBI (nih.gov) 分析思路 表达矩阵 代码分析流程 数据要求 分组信息和探针注释重点学习 安装包 options("repos"="https://mirrors.ustc.edu.cn 查找和下载数据 以GSE7305为例 网站点击链接下载 代码下载 #打破下载时间的限制,改前60秒,改后10w秒 options(timeout = 100000) options(scipen = (1)提取表达矩阵exp exp <- exprs(eSet) # exprs 提取数据的函数 dim(exp) # 多少行多少列 range(exp) # 看数据范围决定是否需要log,是否有负值,异常值 比如GPL23126 解决方法见小洁老师语雀 https://www.yuque.com/xiaojiewanglezenmofenshen/kzgwzl/sv262capcgg9o8s5?

    1.1K22编辑于 2024-04-20
  • 来自专栏DJ生信学习笔记

    技能树-数据挖掘Day1

    R语言:用函数处理数据R语言的命令提示符(有>代码才能运行)图片图片图片图片图片图片图片图片图片数值型字符不带引号;字符型带单引号或双引号;TRUE,FALSE需大写,NA means not available 判断数据类型的函数:class(), 将要判断的内容写在括号里图片看到Error中的unexpected,一般是代码有误some tips1 Tab-打出前几个字母即出现提示,按↑↓翻动,按Tab补全2 光标放在>后面,按↑键,即可修改上一条命令,按回车重新运行图片图片(格式重于内容)引用自生技能树

    30900编辑于 2023-08-07
  • 来自专栏DJ生信学习笔记

    技能树-数据挖掘Day2

    (取子集)图片图片图片图片图片图片1、比较运算 2、数学计算 3、连接图片循环补齐发生的条件:等位运算;两个向量长度不相等图片图片图片图片图片unexpected是代码错误的关键词图片图片图片引用自生技能树

    18600编辑于 2023-08-08
  • 来自专栏生信技能树

    技能树GEO数据挖掘直播配套笔记

    下面是( GEO数据挖掘 )直播配套笔记 一、背景了解 芯片数据:首选limma 。 A:三种方法:芯片中最常用的是str_detect()函数;转录组数据中最常用的是Group = c(rep(“RA”,times=13),rep(“control”,times=9))注意:需要把Group state:ch1` }else if(F){ # 第二种方法,自己生成 Group = c(rep("RA",times=13), rep("control",times=9) ) Group = rep(c("RA","control"),times = c(13,9)) }else if(T){ # 第三种方法,使用字符串出理的函数获取分组 Group=ifelse (Group,levels = c("control","RA")) Group #2.探针注释的获取----------------- #捷径 library(tinyarray) # 这个包为生技能树老师所写

    2.5K34编辑于 2022-06-08
  • 来自专栏生信技能树

    单细胞数据挖掘-全代码放送

    考虑到咱们技能树粉丝对单细胞数据挖掘的需求,我开通了一个专栏《100个单细胞转录组数据降维聚类分群图表复现》,也亲自示范了几个,不过自己带娃,读博,时间精力有限,所以把剩余的90多个任务安排了学徒, 实习,学员。 这次我们要复现的单细胞数据来自International Journal of Cancer 2020年发表的一篇单细胞相关的纯信文章。该文章数据链接:GSE150321 2. DimPlot(tissu1, reduction = "umap", label = TRUE, pt.size = 0.5) + NoLegend() 我们的聚类结果 原文的聚类结果 Step 9、 (跟着技能树Jimmy老师学习进步太快了) 2、不同人处理单细胞数据时设置的参数会有所不同,作者并没有在文章中给出太多相关信息,导致最终的结果有所不同。

    4.9K78发布于 2021-05-27
  • 入门DAY7-9

    本篇内容引自生技能树 DAY7-9 课前提问: 1、为什么要做数据挖掘? 即用别人的数据用在自己的文章里面,多半是从别人的数据里筛选自己想要的基因。 3、数据从哪里来? 不分方向:GEO 肿瘤专属:TCGA、ICGC、CCLE 4、有哪些测序手段可以测到这样的表达量? 3、数据库介绍 数据集、系列(GSE)、芯片(平台)(GPL)、样本(GSM); 探针:从基因上截取出一小段短的序列,探针的表达量代表基因的表达量。 str_detect(pd$fake,"c");table(k2) pd = pd[k1|k2,] } #(3)让exp列名与pd的行名顺序完全一致 #函数identical,判断是否一致,包括数据类型和数据结构 step2output.Rdata") #比较复杂的探针注释参考资料 #资料1:拆分取列https://www.yuque.com/xiaojiewanglezenmofenshen/kzgwzl/sv262capcgg9o8s5

    52310编辑于 2025-05-22
  • 来自专栏科研菌

    仅用公开数据集发4+分纯数据挖掘

    上的一篇文章,“Computational Detection of Breast Cancer Invasiveness with DNA Methylation Biomarkers ”,作者在3个数据集中筛选了差异甲基化 CpG位点,用4种不同的降维方法处理数据后构建分类器,并结合临床特征进行富集分析评估分类器的预测能力,为临床侵袭性乳腺癌的诊断提供帮助。 本篇文章中,作者用转移淋巴结的DNA甲基化数据研究乳腺癌的侵袭性。为了克服数据和转移性样本不足的问题,作者用一种基于DNA甲基化标志的新方法鉴定样本,并构建了一个识别侵袭性乳腺癌的分类器。 GSE58999:44对原发性乳腺癌和区域转移样本 GSE66695:80个原发性乳腺癌样本和40个正常样本 TCGA:766个原发性乳腺癌样本和97个正常样本 作者用393806个探针计算了数据集中任意两个匹配样本间的欧几里得距离 3.TCGA乳腺癌测试集验证分类器预测能力 作者进一步从TCGA下载了BRCA HM450 DNA甲基化数据和临床数据,用766个原发性乳腺癌样本和97个正常样本组成测试集。

    65110发布于 2020-11-23
  • 来自专栏生信学习Marathon

    Day08 马拉松-GEO数据挖掘 (上)

    文章所有内容均来自生技能树“马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 1. 为什么要做数据挖掘 1.1 挖掘数据从哪里来 图片 1.2 有什么可挖掘数据类型 基因表达芯片、转录组、单细胞、表观遗传、突变…… 1.3 如何筛选基因 图片 2. 图表介绍 2.1 热图 输入数据是数值型matrix/data.frame 颜色的变化表示数值的大小 图片 2.2 散点图和箱线图—可互相转化 输入数据是一个连续型vector和一个有重复值的离散型vector GEO挖掘实操 4.1 GEO数据集的下载获取 4.1.1 GEO挖掘需要准备的package options("repos"="https://mirrors.ustc.edu.cn/CRAN/") gpl_number <- eSet@annotation;gpl_number save(pd,exp,gpl_number,file = "step1output.Rdata") 以上内容均引用自生技能树

    88231编辑于 2023-08-19
  • 来自专栏生信学习Marathon

    Day09 马拉松-GEO数据挖掘 (中)

    文章所有内容均来自生技能树“马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 exp,Group,ids,file = "step2output.Rdata") 自主注释流程--了解即可 图片 3.PCA与heatmap的绘制 3.1 PCA图 ######清空环境,加载需要的数据 ###### rm(list = ls()) load(file = "step2output.Rdata")#输入数据:exp和Group #Principal Component Analysis , scale = "row", #基因只在样本间对比,不跨行与其他基因对比 breaks = seq(-3,3,length.out = 100) #从-3到3成 以上内容均引用自生技能树

    73910编辑于 2023-08-19
  • 来自专栏生信宝典

    分析Python实战练习 9 | 视频27

    专用简明 Python 文字和视频教程 源码在:https://github.com/Tong-Chen/Bioinfo_course_python Reference 一些练习题 给定FASTA int转换为整数,float转换为浮点数 用到的知识点 写程序 transferMultipleColumToMatrix.py 将文件(multipleColExpr.txt)中基因在多个组织中的表达数据转换为矩阵形式 (2分) reverse list(seq) 用到的知识点 写程序 collapsemiRNAreads.py转换smRNA-Seq的测序数据

    28741编辑于 2023-09-22
  • 来自专栏数据科学与人工智能

    数据挖掘数据挖掘模型的9条经验总结

    没有业务目标,没有数据挖掘(不管这种表述是否清楚)。因此这个准则也可以说成:数据挖掘是业务过程。 第二,知识律:业务知识是数据挖掘过程每一步的核心 这里定义了数据挖掘过程的一个关键特征。 第三,准备律:数据预处理比数据挖掘其他任何一个过程都重要 这是数据挖掘著名的格言,数据挖掘项目中最费力的事是数据获取和预处理。非正式估计,其占用项目的时间为50%-80%。 数据预处理的目的是把数据挖掘问题转化为格式化的数据,使得分析技术(如数据挖掘算法)更容易利用它。 有五种因素说明试验对于寻找数据挖掘解决方案是必要的: 数据挖掘项目的业务目标定义了兴趣范围(定义域),数据挖掘目标反映了这一点; 与业务目标相关的数据及其相应的数据挖掘目标是在这个定义域上的数据挖掘过程产生的 第六,洞察律:数据挖掘增大对业务的认知 数据挖掘是如何产生洞察力的?这个定律接近了数据挖掘的核心:为什么数据挖掘必须是一个业务过程而不是一个技术过程。业务问题是由人而非算法解决 的。

    82690发布于 2018-02-27
  • 来自专栏百味科研芝士

    如何利用数据库来深入挖掘突变相关课题

    如何利用ICGC数据库来寻找一个突变相关课题 昨天我们介绍了ICGC来浏览PCAWG数据的基本功能。昨天的那样介绍,稍微有一些零散,所以我们可以假设一个例子来使用ICGC数据库分析一下看一看。 这里我们以食管癌举例: 1.1 查看食管癌当中插入突变的结果 在ICGC的数据库的筛选栏当中,我们在 Donors中的样本类型当中选择食管,在Mutations中的突变类型选择插入。 的数据筛选和分析过程当中,我们可以获得三个不同癌种当中和插入突变有关的基因数据集。这个时候,我们可以对这三个数据集进行交叉分析。来寻找和三个癌种都有关系的突变基因。 ICGC提供了交叉分析的入口。 在这里我们选择Select就可以选择数据集进行交叉了。 ? 在Select里面选择我们之后筛选获得的三个数据集。点击Run即可获得结果。 ? 3.数据的进一步分析 经过上面的分析,我们发现了有269个基因的插入突变会影响。但是我们研究的话,不能把269个基因都进行研究的。所以要挑选一个来进行研究的。

    1.3K30发布于 2020-09-22
  • 来自专栏生信马拉松

    马拉松 Day9-10 GEO数据分析笔记

    limma::normalizeBetweenArrays(exp),一般齐和非常齐之间拉平 有负值: a.取过log,有少量负值——正常(取log没加1,不影响使用) b.没取过log,有负值——错误数据 里的第二栏里,带“--”说明不对应任何symbol,需要删去 7、一个探针对应多个基因(非特异性探针),难以解释,这些行直接去掉 8、对于lnkRNA不能直接用页面上的TargetID,尽量寻找symbol列 9、 ="";table(k2) ids = b[k1&k2,] 16、筛选下载数据中的部分样本进行数据分析 library(stringr) # 方法1:按照行号,能数的时候可以自己数行号 keep = c (1,2,5,6) exp = exp[,keep] pd = pd[keep,] # 方法2:按照逻辑值,根据自己的数据特点编写: # 可以是提取要保留的数据有的,也可以是不要的数据有的 # 无论如何设置 str_detect(pd$title,"and");table(keep) exp = exp[,keep] pd = pd[keep,] 总结: 小洁老师讲的真的非常好,细腻又形象,准备学生的一定要来学一波让你丝滑入门

    59900编辑于 2024-01-26
  • 星球——入门DAY5:数据结构

    个元素x[-(2:4)]#除了第2-4个元素x[c(1,5)] #第1个和第5个元素x[x==10]#等于10的元素x[x<0]x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素数据框 c(a,b)]#第a列和第b列a$列名#也可以提取列(优秀写法,支持Tab自动补全哦,不过只能提取一列)plot(iris$Sepal.Length,iris$Sepal.Width)有几个问题,如果数据没处理完 ,或者a还没被赋值的时候,save a 会报错,提示找不到a;最后的plot,即是以R内置的iris数据中的两列数据作散点图,出现一个最基础的、x轴y轴一一对应的图像。

    23500编辑于 2024-01-21
  • 来自专栏生信菜鸟团

    数据挖掘 | 优质期刊 BIB,可重复且简单的 TCGA 数据分析思路

    对于年龄在18至55岁之间的乳腺癌患者,如果最高级别在I期被发现,5年存率为97%,可以通过适当的治疗治愈,而II期、III期和IV期的预期5年存率分别为92%、77%和28%。 通过应用复杂的计算算法来利用TCGA数据库中的广泛数据集来揭示特定阶段的遗传标记,这项工作增加了我们对乳腺癌的理解。 TCGA数据库是目前可用的最大癌症数据库之一。 TCGA-BRCA数据集;收集并下载了TCGA-BRCA的RNA测序数据和临床数据以进一步推进。 图8显示了精确率-召回率曲线,而图9显示了四个不同模型的ROC曲线。 图片说明 ◉ 图8是随机森林、高斯朴素贝叶斯、K近邻和支持向量机(XGBoost)机器学习模型的精确率-召回曲线。 图片说明 ◉ 图9展示了机器学习模型RF、GNB、KNN和XGB的ROC曲线。 Discussion Para_36 在全球范围内,乳腺癌是导致癌症死亡的主要原因。

    44300编辑于 2025-03-06
  • 来自专栏从头开始的生信学习

    从零开始的异世界学习 GEO数据数据挖掘--GEO背景知识简介

    技能树 科研图表介绍 图片 1.热图 图片 输入的数据是数值型矩阵/数据框 颜色变化表示数值的大小 一般冷色调表示小的数字,暖色调表示大的数字 热图中包括聚类树,因此热图中的行列顺序与原数据不同,但是行和列内的数据无变化 它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。 主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。 箱形图的绘制步骤: 1、画数轴,度量单位大小和数据批的单位一致,起点比最小值稍小,长度比该数据批的全距稍长。 2、画一个矩形盒,两端边的位置分别对应数据批的上下四分位数(Q3和Q1)。 相同值的数据点并列标出在同一数据线位置上,不同值的数据点标在不同数据线位置上。至此一批数据的箱形图便绘出了。统计软件绘制的箱形图一般没有标出内限和外限。

    2.5K10编辑于 2023-03-07
  • 来自专栏科研猫

    7分+非肿瘤 | 数据挖掘+简单的ELISA 检测!干湿结合,可复性强!

    2 研究流程 人脑组织的MS表达谱数据从 Gene Expression Omnibus (GEO) 下载; 通过蛋白质注释数据库筛选细胞外蛋白质差异表达基因(EP-DEGs); GO和KEGG用于分析 图A:①HPA数据库中标注的编码胞外蛋白的基因与DEGs相交②Uniprot数据库中标注的编码胞外蛋白的基因与DEGs进行交叉筛③将两种方法结合起来,共获得133个EP-DEGs。 图9A:ROC:Del-1对RRMS的诊断准确率(AUC=0.947,95%CI=0.898-0.996)高于IgG(AUC=0.740,95%CI=0.623-0.857); 图9B:无复发生存时间: 高Del-1组为30个月,低Del-1组为13.5个月; 图9C:无进展生存率:高Del-1组始终高于50%,无进展生存期为46个月; 图9:RRMS 中 Del-1 的 ROC、无复发生存、无进展生存曲线 本篇研究所用数据挖掘方法均可在我们的精品课程中学习和升级!

    71020编辑于 2022-04-09
  • 岩酱的学习笔记DAY9—R语言数据结构(向量)

    "two" "three" "four" "five" 构建等差数列、重复数列> seq(from=1,to=100,by=2)#从1到100,通过2来排序 [1] 1 3 5 7 9 10> y[c(T)]#循环输出TRUE所有的值 [1] 1 2 3 4 5 6 7 8 9 10> y[c(T,F)]#循环输出对错对错的值[1] 1 3 5 7 9> y[c(T, >5]#检索大于5的值[1] 6 7 8 9 10> y[y>5 & y<9]#通过&来合并两个检索命令[1] 6 7 8> z<-c("one","two","three","four","five y one two three four five 1 2 3 4 5 > y["one"]#通过搜索名称来索引值one 1 修改向量,添加删除数据 8)#对向量v在第8位后面赋值9 [1] 1 2 3 4 5 6 NA NA 9 NA NA NA NA NA NA NA NA NA NA NA 20> v[2]<-4#直接对第几位向量进行赋值修改

    19010编辑于 2024-05-10
领券