首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏叶潭生信笔记

    技能树数据挖掘笔记

    ————————图片转载自小洁忘了怎么分身图片R/Rstudio图片数据类型与向量图片tab键、上下键、ctr+L(back)逻辑型数据图片转换和判断图片数据的结构图片脚本直接双击打开,数据要load加载向量的生成图片数据类型的转换优先顺序图片对单个向量进行操作图片赋值是实际改变文件的方法图片图片 中括号的作用可以把T挑选处理,丢弃F图片[]中括号里面的可以是逻辑值判断,可以是具体的值(即下标),可以是函数,可以是向量图片图片图片图片如何修改向量中的某个或者某些元素图片图片简单的向量作图图片图片数据框 、矩阵和列表向量是一维的矩阵是二维的图片lis列表t可装万物图片数据框的来源图片新建数据框图片从文件中读取(放在工作目录下)图片数据框的属性图片dim()多少行、多少列,nrow()多少行,ncol() 多少列,rownames()行名数据框取子集图片图片图片图片图片图片图片数据数据框的修改图片图片图片图片图片图片图片矩阵新建和取子集(不支持$)图片矩阵的的转置、转换图片图片图片矩阵画热图图片图片列表的的新建和取子集图片 l[[2]]:取第二个子集,再取矩阵的子集列表支持$图片图片数据结构的总结图片函数和R包图片图片图片图片图片图片图片图片图片图片R包图片图片1.CRAN网站图片2.bioconductor图片3.github

    1.1K10编辑于 2023-02-08
  • 来自专栏DJ生信学习笔记

    技能树-数据挖掘Day1

    R语言:用函数处理数据R语言的命令提示符(有>代码才能运行)图片图片图片图片图片图片图片图片图片数值型字符不带引号;字符型带单引号或双引号;TRUE,FALSE需大写,NA means not available 判断数据类型的函数:class(), 将要判断的内容写在括号里图片看到Error中的unexpected,一般是代码有误some tips1 Tab-打出前几个字母即出现提示,按↑↓翻动,按Tab补全2 光标放在>后面,按↑键,即可修改上一条命令,按回车重新运行图片图片(格式重于内容)引用自生技能树

    30600编辑于 2023-08-07
  • 来自专栏DJ生信学习笔记

    技能树-数据挖掘Day2

    (取子集)图片图片图片图片图片图片1、比较运算 2、数学计算 3、连接图片循环补齐发生的条件:等位运算;两个向量长度不相等图片图片图片图片图片unexpected是代码错误的关键词图片图片图片引用自生技能树

    18500编辑于 2023-08-08
  • 来自专栏生信技能树

    技能树GEO数据挖掘直播配套笔记

    下面是( GEO数据挖掘 )直播配套笔记 一、背景了解 芯片数据:首选limma 。 GEO 数据处理流程 0.需要安装各种包 if(! 下载数据 #数据下载 rm(list = ls()) library(GEOquery) #先去网页确定是否是表达芯片数据,不是的话不能用本流程。 (Group,levels = c("control","RA")) Group #2.探针注释的获取----------------- #捷径 library(tinyarray) # 这个包为生技能树老师所写 A1:需要差异分析后的数据,即DESeq2、edgeR、limma分析后的数据,需要使用logFC、P.Value。

    2.5K34编辑于 2022-06-08
  • 来自专栏生信技能树

    单细胞数据挖掘-全代码放送

    考虑到咱们技能树粉丝对单细胞数据挖掘的需求,我开通了一个专栏《100个单细胞转录组数据降维聚类分群图表复现》,也亲自示范了几个,不过自己带娃,读博,时间精力有限,所以把剩余的90多个任务安排了学徒, 实习,学员。 这次我们要复现的单细胞数据来自International Journal of Cancer 2020年发表的一篇单细胞相关的纯信文章。该文章数据链接:GSE150321 2. 总结 1、单细胞数据复现可以提升自己对此类数据的理解和掌握。 (跟着技能树Jimmy老师学习进步太快了) 2、不同人处理单细胞数据时设置的参数会有所不同,作者并没有在文章中给出太多相关信息,导致最终的结果有所不同。

    4.9K78发布于 2021-05-27
  • 来自专栏科研菌

    仅用公开数据集发4+分纯数据挖掘

    上的一篇文章,“Computational Detection of Breast Cancer Invasiveness with DNA Methylation Biomarkers ”,作者在3个数据集中筛选了差异甲基化 CpG位点,用4种不同的降维方法处理数据后构建分类器,并结合临床特征进行富集分析评估分类器的预测能力,为临床侵袭性乳腺癌的诊断提供帮助。 本篇文章中,作者用转移淋巴结的DNA甲基化数据研究乳腺癌的侵袭性。为了克服数据和转移性样本不足的问题,作者用一种基于DNA甲基化标志的新方法鉴定样本,并构建了一个识别侵袭性乳腺癌的分类器。 GSE58999:44对原发性乳腺癌和区域转移样本 GSE66695:80个原发性乳腺癌样本和40个正常样本 TCGA:766个原发性乳腺癌样本和97个正常样本 作者用393806个探针计算了数据集中任意两个匹配样本间的欧几里得距离 3.TCGA乳腺癌测试集验证分类器预测能力 作者进一步从TCGA下载了BRCA HM450 DNA甲基化数据和临床数据,用766个原发性乳腺癌样本和97个正常样本组成测试集。

    64610发布于 2020-11-23
  • 来自专栏生信学习Marathon

    Day08 马拉松-GEO数据挖掘 (上)

    文章所有内容均来自生技能树“马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 1. 为什么要做数据挖掘 1.1 挖掘数据从哪里来 图片 1.2 有什么可挖掘数据类型 基因表达芯片、转录组、单细胞、表观遗传、突变…… 1.3 如何筛选基因 图片 2. 图表介绍 2.1 热图 输入数据是数值型matrix/data.frame 颜色的变化表示数值的大小 图片 2.2 散点图和箱线图—可互相转化 输入数据是一个连续型vector和一个有重复值的离散型vector GEO挖掘实操 4.1 GEO数据集的下载获取 4.1.1 GEO挖掘需要准备的package options("repos"="https://mirrors.ustc.edu.cn/CRAN/") gpl_number <- eSet@annotation;gpl_number save(pd,exp,gpl_number,file = "step1output.Rdata") 以上内容均引用自生技能树

    86131编辑于 2023-08-19
  • 技能树Day9 GEO数据挖掘 差异分析

    差异分析表格二分组数据差异分析#差异分析 limmalibrary(limma)design = model.matrix(~Group) # 生成模型矩阵fit = lmFit(exp,design) fit = eBayes(fit)deg = topTable(fit,coef = 2,number = Inf)分组多代码更复杂为deg数据框添加几列1.加probe_id列,把行名变成一列library 先把示例数据跑通,再把自己的数据改成示例数据的格式,最后修改参数。 ggthemes)library(org.Hs.eg.db)library(dplyr)library(ggplot2)library(stringr)library(enrichplot)(1)输入数据 clusterProfiler-book/index.html# GOplot:https://mp.weixin.qq.com/s/LonwdDhDn8iFUfxqSJ2Wew# 网上的资料和宝藏无穷无尽,学好R语言慢慢发掘~技能树

    67811编辑于 2024-04-21
  • 来自专栏生信学习Marathon

    Day09 马拉松-GEO数据挖掘 (中)

    文章所有内容均来自生技能树“马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 exp,Group,ids,file = "step2output.Rdata") 自主注释流程--了解即可 图片 3.PCA与heatmap的绘制 3.1 PCA图 ######清空环境,加载需要的数据 ###### rm(list = ls()) load(file = "step2output.Rdata")#输入数据:exp和Group #Principal Component Analysis , scale = "row", #基因只在样本间对比,不跨行与其他基因对比 breaks = seq(-3,3,length.out = 100) #从-3到3成 以上内容均引用自生技能树

    71110编辑于 2023-08-19
  • 技能树 Day8 9 GEO数据挖掘 基因芯片数据

    技能树 图表介绍 热图 散点图 箱线图 火山图 理解logFC 主成分分析 PCA样本聚类图 基因芯片差异分析的起点是一个取过log的表达矩阵,得到数据后先看下有没有取log GEO背景知识 数据库介绍 Home - GEO - NCBI (nih.gov) 分析思路 表达矩阵 代码分析流程 数据要求 分组信息和探针注释重点学习 安装包 options("repos"="https://mirrors.ustc.edu.cn 查找和下载数据 以GSE7305为例 网站点击链接下载 代码下载 #打破下载时间的限制,改前60秒,改后10w秒 options(timeout = 100000) options(scipen = (1)提取表达矩阵exp exp <- exprs(eSet) # exprs 提取数据的函数 dim(exp) # 多少行多少列 range(exp) # 看数据范围决定是否需要log,是否有负值,异常值 ,不行就换个数据 保存运行结果 save(exp,Group,ids,file = "step2output.Rdata") 画PCA图和热图 rm(list = ls()) load(file =

    1K22编辑于 2024-04-20
  • 来自专栏百味科研芝士

    如何利用数据库来深入挖掘突变相关课题

    如何利用ICGC数据库来寻找一个突变相关课题 昨天我们介绍了ICGC来浏览PCAWG数据的基本功能。昨天的那样介绍,稍微有一些零散,所以我们可以假设一个例子来使用ICGC数据库分析一下看一看。 这里我们以食管癌举例: 1.1 查看食管癌当中插入突变的结果 在ICGC的数据库的筛选栏当中,我们在 Donors中的样本类型当中选择食管,在Mutations中的突变类型选择插入。 的数据筛选和分析过程当中,我们可以获得三个不同癌种当中和插入突变有关的基因数据集。这个时候,我们可以对这三个数据集进行交叉分析。来寻找和三个癌种都有关系的突变基因。 ICGC提供了交叉分析的入口。 在这里我们选择Select就可以选择数据集进行交叉了。 ? 在Select里面选择我们之后筛选获得的三个数据集。点击Run即可获得结果。 ? 3.数据的进一步分析 经过上面的分析,我们发现了有269个基因的插入突变会影响。但是我们研究的话,不能把269个基因都进行研究的。所以要挑选一个来进行研究的。

    1.3K30发布于 2020-09-22
  • 星球——入门DAY5:数据结构

    个元素x[-(2:4)]#除了第2-4个元素x[c(1,5)] #第1个和第5个元素x[x==10]#等于10的元素x[x<0]x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素数据框 c(a,b)]#第a列和第b列a$列名#也可以提取列(优秀写法,支持Tab自动补全哦,不过只能提取一列)plot(iris$Sepal.Length,iris$Sepal.Width)有几个问题,如果数据没处理完 ,或者a还没被赋值的时候,save a 会报错,提示找不到a;最后的plot,即是以R内置的iris数据中的两列数据作散点图,出现一个最基础的、x轴y轴一一对应的图像。

    23000编辑于 2024-01-21
  • 来自专栏生信菜鸟团

    数据挖掘 | 优质期刊 BIB,可重复且简单的 TCGA 数据分析思路

    对于年龄在18至55岁之间的乳腺癌患者,如果最高级别在I期被发现,5年存率为97%,可以通过适当的治疗治愈,而II期、III期和IV期的预期5年存率分别为92%、77%和28%。 通过应用复杂的计算算法来利用TCGA数据库中的广泛数据集来揭示特定阶段的遗传标记,这项工作增加了我们对乳腺癌的理解。 TCGA数据库是目前可用的最大癌症数据库之一。 TCGA-BRCA数据集;收集并下载了TCGA-BRCA的RNA测序数据和临床数据以进一步推进。 基因表达数据。 我们研究了来自TCGA数据集的乳腺癌基因表达数据

    42200编辑于 2025-03-06
  • 来自专栏从头开始的生信学习

    从零开始的异世界学习 GEO数据数据挖掘--GEO背景知识简介

    技能树 科研图表介绍 图片 1.热图 图片 输入的数据是数值型矩阵/数据框 颜色变化表示数值的大小 一般冷色调表示小的数字,暖色调表示大的数字 热图中包括聚类树,因此热图中的行列顺序与原数据不同,但是行和列内的数据无变化 它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。 主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。 箱形图的绘制步骤: 1、画数轴,度量单位大小和数据批的单位一致,起点比最小值稍小,长度比该数据批的全距稍长。 2、画一个矩形盒,两端边的位置分别对应数据批的上下四分位数(Q3和Q1)。 相同值的数据点并列标出在同一数据线位置上,不同值的数据点标在不同数据线位置上。至此一批数据的箱形图便绘出了。统计软件绘制的箱形图一般没有标出内限和外限。

    2.5K10编辑于 2023-03-07
  • 来自专栏科研猫

    7分+非肿瘤 | 数据挖掘+简单的ELISA 检测!干湿结合,可复性强!

    2 研究流程 人脑组织的MS表达谱数据从 Gene Expression Omnibus (GEO) 下载; 通过蛋白质注释数据库筛选细胞外蛋白质差异表达基因(EP-DEGs); GO和KEGG用于分析 图A:GSE5839数据集中四个样本基因的中位数、上下四分位数、最大值和最小值基本相同; 图B:相关性分析显示,MS组的组内相关性更强; 图C:主成分分析显示MS组与对照组中心相距较远,说明MS组与对照组基因表达存在差异 图A:①HPA数据库中标注的编码胞外蛋白的基因与DEGs相交②Uniprot数据库中标注的编码胞外蛋白的基因与DEGs进行交叉筛③将两种方法结合起来,共获得133个EP-DEGs。 图5:EP-DEGs 的 GO 富集圆图 图6:EP-DEGs的 KEGG 富集分析 4.PPI网络的建立和Hub基因的鉴定 为了研究EP-DEGs对应的蛋白质之间的相互作用,使用STRING数据库构建了 本篇研究所用数据挖掘方法均可在我们的精品课程中学习和升级!

    70820编辑于 2022-04-09
  • 星球--入门DAY1

    R语言R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 GEO数据库GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。 它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。关键是这个数据是免费的! 这些数据包括基于单通道和双通道微阵列的实验,检测mRNA,基因组DNA和蛋白质丰度,以及非阵列技术,如基因表达系列分析(SAGE),质谱蛋白质组学数据和高通量测序数据。 前三个(样本,平台和系列)由用户提供; 第四,数据集由GEO工作人员根据用户提交的数据进行编译和策划。(暂时实在写不出什么代码 纯粹的freshman)

    35910编辑于 2024-01-17
  • 学习

    学习第6天之函数学习和操作1.R包是多个函数的集合,使用之前要加载合适的镜像,提高下载的速度。

    24510编辑于 2024-03-10
  • 来自专栏淡淡

    3.7

    x <- c(1,3,5,1) 规范的赋值符号: Alt+减号(上下两种等效)

    26630编辑于 2023-03-09
  • 来自专栏淡淡

    3.9

    matrix :矩阵,整个表只允许一种数据类型 data.frame:数据框,每一列只允许一种数据类型 可以根据生成的函数或者用class或者is族函数判断。 图片 数据框的来源: 可由代码新建、已有数据转换或处理、读取表格文件、R语言内置数据 内置数据多用于新手练习,eg:iris、volcano、letters、LETTERS 新建数据框: 图片 ##A. 数据框属性 dim(df1) 数据框属性,返回行数列数 nrow(df1) 数据框行数 ncol(df1) 数据框列数 rownames(df1) 数据框行名 colnames(df1) 数据框列名 ##B. 如何取数据框除了最后一列以外的其他列? df1【,-ncol(df1)】 “-”是针对数据使用,“!”

    1.7K30编辑于 2023-03-14
  • 来自专栏机器学习AI算法工程

    研究数据分析挖掘工作的疑惑?

    问题如下: 1 数据挖掘数据分析在实际工作中真的有很大不同甚至是区别吗?我知道一些定义,比如数据分析偏重于统计,而数据挖掘的工作是分类,聚类,是信息的提炼,但是实际工作中是不是往往两方面都在做? 这些个系统只是数据挖掘的成果,是根据业务部门(市场部,集团部等)的需求来制作的.这个过程可以称作数据挖掘的过程. 但是自动化的数据挖掘不能解决所有问题(甚至是只能解决小部分问题),大部分问题有时候还需要手工挖掘,这时就需要技术部门来精炼沉淀的数据. 总结: 数据挖掘总体上是业务部门提需求建议,总体规划实施还是技术部门主导.偏向于自动化,大方向上; 数据分析则是业务部门主导,在数据挖掘结果及手工整理材料的基础上,得出他们需要知道的事情.重心在于决策和结果 而数据挖掘是指在大数据背景下,使用编程的方式结合分布式计算框架,对全量的数据(非结构化的数据)进行知识抽取。

    1.7K50发布于 2018-03-12
领券