首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏叶潭生信笔记

    技能树数据挖掘笔记

    ————————图片转载自小洁忘了怎么分身图片R/Rstudio图片数据类型与向量图片tab键、上下键、ctr+L(back)逻辑型数据图片转换和判断图片数据的结构图片脚本直接双击打开,数据要load加载向量的生成图片数据类型的转换优先顺序图片对单个向量进行操作图片赋值是实际改变文件的方法图片图片 、矩阵和列表向量是一维的矩阵是二维的图片lis列表t可装万物图片数据框的来源图片新建数据框图片从文件中读取(放在工作目录下)图片数据框的属性图片dim()多少行、多少列,nrow()多少行,ncol() 多少列,rownames()行名数据框取子集图片图片图片图片图片图片图片数据数据框的修改图片图片图片图片图片图片图片矩阵新建和取子集(不支持$)图片矩阵的的转置、转换图片图片图片矩阵画热图图片图片列表的的新建和取子集图片 l[[2]]:取第二个子集,再取矩阵的子集列表支持$图片图片数据结构的总结图片函数和R包图片图片图片图片图片图片图片图片图片图片R包图片图片1.CRAN网站图片2.bioconductor图片3.github sort(a)tail(a,3)tail(sort(a),10)head(sort(a,decreasing = T),10)load("test2.Rdata")a = apply(test,1,var

    1.1K10编辑于 2023-02-08
  • 来自专栏DJ生信学习笔记

    技能树-数据挖掘Day1

    R语言:用函数处理数据R语言的命令提示符(有>代码才能运行)图片图片图片图片图片图片图片图片图片数值型字符不带引号;字符型带单引号或双引号;TRUE,FALSE需大写,NA means not available 判断数据类型的函数:class(), 将要判断的内容写在括号里图片看到Error中的unexpected,一般是代码有误some tips1 Tab-打出前几个字母即出现提示,按↑↓翻动,按Tab补全2 光标放在>后面,按↑键,即可修改上一条命令,按回车重新运行图片图片(格式重于内容)引用自生技能树

    30900编辑于 2023-08-07
  • 来自专栏DJ生信学习笔记

    技能树-数据挖掘Day2

    Day2主要内容:向量一、向量生成二、单个向量操作三、两个向量操作四、向量筛选(取子集)图片图片图片图片图片图片1、比较运算 2、数学计算 3、连接图片循环补齐发生的条件:等位运算;两个向量长度不相等图片图片图片图片图片 unexpected是代码错误的关键词图片图片图片引用自生技能树

    18600编辑于 2023-08-08
  • 来自专栏生信技能树

    技能树GEO数据挖掘直播配套笔记

    下面是( GEO数据挖掘 )直播配套笔记 一、背景了解 芯片数据:首选limma 。 下载数据 #数据下载 rm(list = ls()) library(GEOquery) #先去网页确定是否是表达芯片数据,不是的话不能用本流程。 (Group,levels = c("control","RA")) Group #2.探针注释的获取----------------- #捷径 library(tinyarray) # 这个包为生技能树老师所写 = exp[ids$probe_id,] rownames(exp3) = ids$symbol exp3[1:4,1:4] exp4 = limma::avereps(exp3) # 此时拿到的exp4 A1:需要差异分析后的数据,即DESeq2、edgeR、limma分析后的数据,需要使用logFC、P.Value。

    2.5K34编辑于 2022-06-08
  • 来自专栏生信技能树

    单细胞数据挖掘-全代码放送

    考虑到咱们技能树粉丝对单细胞数据挖掘的需求,我开通了一个专栏《100个单细胞转录组数据降维聚类分群图表复现》,也亲自示范了几个,不过自己带娃,读博,时间精力有限,所以把剩余的90多个任务安排了学徒, 实习,学员。 这次我们要复现的单细胞数据来自International Journal of Cancer 2020年发表的一篇单细胞相关的纯信文章。该文章数据链接:GSE150321 2. ,"SPRR1A","NCCRP1","TMPRSS11E","APOBEC3A")) 绞尽脑汁,一顿操作,最后还是没有办法很好的复现原文的数据,但是其中一个亚群有较好的聚类出来。 (跟着技能树Jimmy老师学习进步太快了) 2、不同人处理单细胞数据时设置的参数会有所不同,作者并没有在文章中给出太多相关信息,导致最终的结果有所不同。

    4.9K78发布于 2021-05-27
  • 来自专栏科研菌

    仅用公开数据集发4+分纯数据挖掘

    )上的一篇文章,“Computational Detection of Breast Cancer Invasiveness with DNA Methylation Biomarkers ”,作者在3数据集中筛选了差异甲基化 本篇文章中,作者用转移淋巴结的DNA甲基化数据研究乳腺癌的侵袭性。为了克服数据和转移性样本不足的问题,作者用一种基于DNA甲基化标志的新方法鉴定样本,并构建了一个识别侵袭性乳腺癌的分类器。 3.TCGA乳腺癌测试集验证分类器预测能力 作者进一步从TCGA下载了BRCA HM450 DNA甲基化数据和临床数据,用766个原发性乳腺癌样本和97个正常样本组成测试集。 用4个分类器对每一个指标进行超几何分布检验,比较结果如图1所示:MRMD分类器预测为侵袭性的样本显著富集T3、N3、HER2+等与肿瘤转移的有关的因子。 结果表明2个位点位于基因体,剩下3个位点还没有注释,这5个位点可能成为乳腺癌转移的生物标志物。

    65110发布于 2020-11-23
  • 来自专栏生信学习Marathon

    Day08 马拉松-GEO数据挖掘 (上)

    文章所有内容均来自生技能树“马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 1. 为什么要做数据挖掘 1.1 挖掘数据从哪里来 图片 1.2 有什么可挖掘数据类型 基因表达芯片、转录组、单细胞、表观遗传、突变…… 1.3 如何筛选基因 图片 2. 把多指标转化为少数几个综合指标(即主成分) 根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大 图片 关注点: 1.同一分组是否分成一簇(组内重复性好) 2.中心点之间是否有距离(组间差别大) 3. GEO挖掘实操 4.1 GEO数据集的下载获取 4.1.1 GEO挖掘需要准备的package options("repos"="https://mirrors.ustc.edu.cn/CRAN/") gpl_number <- eSet@annotation;gpl_number save(pd,exp,gpl_number,file = "step1output.Rdata") 以上内容均引用自生技能树

    88231编辑于 2023-08-19
  • 技能树Day9 GEO数据挖掘 差异分析

    (exp3) = ids$symbolexp3[1:4,1:4]exp4 = limma::avereps(exp3)# 此时拿到的exp4已经是一个基因为行名的表达矩阵,直接差异分析,不再需要inner_join scale = "row", #cluster_cols = F, annotation_col=annotation_col, breaks = seq(-3,3 ,length.out = 100)) 重要的是学会画图思路,先找到示例代码,根据自己的数据和需求修改,好好阅读帮助文档。 先把示例数据跑通,再把自己的数据改成示例数据的格式,最后修改参数。 clusterProfiler-book/index.html# GOplot:https://mp.weixin.qq.com/s/LonwdDhDn8iFUfxqSJ2Wew# 网上的资料和宝藏无穷无尽,学好R语言慢慢发掘~技能树

    70611编辑于 2024-04-21
  • 来自专栏生信学习Marathon

    Day09 马拉松-GEO数据挖掘 (中)

    文章所有内容均来自生技能树“马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 PCA与heatmap的绘制 3.1 PCA图 ######清空环境,加载需要的数据###### rm(list = ls()) load(file = "step2output.Rdata")#输入数据 annotation_col=annotation_col, scale = "row", #基因只在样本间对比,不跨行与其他基因对比 breaks = seq(-3,3 ,length.out = 100) #从-33成100个颜色,让颜色对比更鲜明 “length.out = 100”为颜色范围 ) dev.off() 拓展内容:归一化函数—scale 以上内容均引用自生技能树

    73910编辑于 2023-08-19
  • 来自专栏生信入门

    星球Day3 数据结构

    什么是数据框?如何使用?中途有事离开,怎么保存数据并且下一次重新加载?问题:如果save(X,file="test.RData")报错的话,怎么办? 用c()来创建,如c(1,2,3)。赋值和修改赋值<-是给变量下定义,指明这是个啥东西;修改就是再一次赋值,多次赋值以最后一次为准。 (a %in% b)] #根据FALSE取关于%in%的更多用法:https://blog.csdn.net/dege857/article/details/123344362数据数据框(Data 赋值:从文件中读取read.table() #从文件中读取数据,sep表示文件中的分隔符,header表示第一行是否为标题行read.csv() #读取文件,默认sep为",",header为TX #第x行,注意逗号前为行,逗号后或无逗号为列X[,y] #第y列,等同于X[y] X[a:b] #第a列到第b列X[c(a,b)] #第a列和第b列X$列名 #也可以提取列,但只能提取一列导出数据

    41610编辑于 2023-07-20
  • 来自专栏生信学习小组

    学习day3

    anaconda是总管,职务比conda低,但干的活不少,也是个有内涵的家伙miniconda是区域经理,说白了就是干事的,而且比较专一,主要负责领域二、如何下载软件1.创建biosoft(mkdir biosoft(cd biosoft)2.从某链接下载软件:wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3- latest-Linux-x86_64.sh星球:sh是脚本(就是一个程序,后台的代码)文件的后缀,也就是说其实这是一个下载的脚本。 然后出现这个界面:3.下载完成后,运行 :bash Miniconda3-latest-Linux-x86_64.sh,然后开始安装过程4.激活:source ~/.bashrc(注意空格)星球:激活不成功就将 add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/conda config --set show_channel_urls yes星球三

    35310编辑于 2024-01-18
  • 技能树 Day8 9 GEO数据挖掘 基因芯片数据

    技能树 图表介绍 热图 散点图 箱线图 火山图 理解logFC 主成分分析 PCA样本聚类图 基因芯片差异分析的起点是一个取过log的表达矩阵,得到数据后先看下有没有取log GEO背景知识 数据库介绍 (1)提取表达矩阵exp exp <- exprs(eSet) # exprs 提取数据的函数 dim(exp) # 多少行多少列 range(exp) # 看数据范围决定是否需要log,是否有负值,异常值 ,按需学习 https://mp.weixin.qq.com/s/0g8XkhXM3PndtPd-BUiVgw Group(实验分组)和ids(探针注释) rm(list = ls()) load( 一般不影响,下载下来是有数据的 方法3 官网下载注释文件并读取 方法4 自主注释,了解一下 https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA 不是所有芯片注释都能找到 -5~5之间 breaks = seq(-3,3,length.out = 100) #设置色带分布范围为-3~3之间,超出此范围的数字显示极限颜色 )

    1.1K22编辑于 2024-04-20
  • 来自专栏生信课程note+实验知识

    课程note-3

    class3数据框、矩阵和列表向量-一维:表格—二维 :matrix 矩阵-二维,只允许一种数据类型;data.frame数据框-二维,每列只允许一种数据类型。 #重点:数据框#1.数据框来源# (1)用代码新建# (2)由已有数据转换或处理得到# (3)读取表格文件 (对数据框操作)# (4)R语言内置数据 (可以直接使用的的数据框)heatmap(volcano ),each = 2), score = c(5,3,-2,-4))df1从文件中读取df2 <- read.csv("gene.csv")df2#3.数据框属性#维度 = 3)colnames(m) <- c("a","b","c") #加列名矩阵取子集不支持$,数据框支持。 (a))a# 4.探索列表取子集l[2]和l[[2]]的区别(提示:数据结构)class(l[2])class(l[[2]])图片引自生技能树

    1.8K40编辑于 2023-02-09
  • 来自专栏笔记生信

    提升day3

    查看服务器 uname -a1.好的,是你64-bit(x86_64)2.3.下载成功未安装,需要运行这句代码(问啥回答啥)bash Miniconda3-latest-Linux-x86_64.sh conda config --set show_channel_urls yes使用conda查看当前服务器上安装的所有软件列表 conda list安装软件 conda install fastqc -y 3尝试不加 fastqc -y(先不试)选修conda 环境 分身就是不同的“conda environment”为了满足不同项目需要的相同软件的不同版本1.查看conda有哪些环境(带*已激活)2.创建也成功了3. 成功成功,芜湖~4.退出当前环境conda deactivate 代码引用星球,说明部分引用星球心得,感觉今天比昨天简单,嘻嘻~

    23800编辑于 2023-11-15
  • 来自专栏用户10800790的专栏

    星球 day 3 —— 橙子🍊

    安装一切顺利,愉快学习的一天,感谢星球,感恩豆豆花花,继续磕cp安装操作记录1. 查看linux服务器位数uname -a选择对应的64位,.sh是脚本文件后缀;注:64-bit(x86_64)、32-bit(x86)3. 选择相应的miniconda,右键复制链接网址图片4. 新建环境conda create -n rna-seq python=3 fastqc trimmomatic -yconda info --envs比如要处理转录组数据,先建立一个名叫rnaseq的conda 环境,然后指定python版本是3,安装软件fastqc、trimmomatic;安装完确认一下。 3. 激活新环境conda activate rna-seq相当于进入该环境,类似于cd 目录conda deactivate退出当前环境

    35570编辑于 2023-10-23
  • 来自专栏百味科研芝士

    如何利用数据库来深入挖掘突变相关课题

    如何利用ICGC数据库来寻找一个突变相关课题 昨天我们介绍了ICGC来浏览PCAWG数据的基本功能。昨天的那样介绍,稍微有一些零散,所以我们可以假设一个例子来使用ICGC数据库分析一下看一看。 的数据筛选和分析过程当中,我们可以获得三个不同癌种当中和插入突变有关的基因数据集。这个时候,我们可以对这三个数据集进行交叉分析。来寻找和三个癌种都有关系的突变基因。 ICGC提供了交叉分析的入口。 3.数据的进一步分析 经过上面的分析,我们发现了有269个基因的插入突变会影响。但是我们研究的话,不能把269个基因都进行研究的。所以要挑选一个来进行研究的。 最后发现DIAPH3-AS1这个lncRNA的插入突变影响肿瘤的预后。 ? 于是,我们就有了一个课题了。 这个课题就大致上就可以是:lncRNA DIAPH3-AS1的插入突变对于消化道肿瘤预后的影响。

    1.3K30发布于 2020-09-22
  • 星球——入门DAY3:Linux环境下安装软件

    因为我用的是自己的MacBook的terminal,第一个指令wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3- 下成Linux版了,死活安装不了……最后发现应该选mac版:wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3- 总之就是为了加快速度…………接下来正式使用conda:conda install fastqc -y(-y)很关键最后加一个conda环境:conda create -n rna-seq python=3 fastqc trimmomatic -y搞一个python版本是3的conda环境来安装fastqc、trimmomatic。

    40510编辑于 2024-01-19
  • 入门Day3-4

    引自生技能树引自生技能树DAY3三、数据结构——数据框1、数据框的来源(1)用代码新建(2)由已有数据转换或处理得到(3)读取表格文件(4)R语言内置数据注意:向量是一维的,且只存储一种数据类型;matrix #1.数据框来源# (1)用代码新建# (2)由已有数据转换或处理得到# (3)读取表格文件# (4)R语言内置数据#2.新建、读取数据框、内置数据df1 <- data.frame(gene = 、数据框的属性#3.数据框属性#dim(df1)nrow(df1)ncol(df1)#rownames(df1)colnames(df1)3数据框取子集解决报错的思维:(1)对比成功的代码、数据与报错的代码 #<-之间要有空格或打个括号,不然会被当成赋值符号2、R包介绍3、R包镜像引自生技能书使用镜像,加快R包的下载,不用从大洋彼岸去下载4、R包的安装与来源(1)CRAN网站(2)Bioconductor sdlibrary(limma)browseVignettes("limma") #不是每个包都有ls("package:limma")5、R包的安装和使用逻辑引自生技能书引自生技能树练习题4-1#

    49210编辑于 2025-05-15
  • 星球——入门DAY5:数据结构

    个元素x[-(2:4)]#除了第2-4个元素x[c(1,5)] #第1个和第5个元素x[x==10]#等于10的元素x[x<0]x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素数据框 c(a,b)]#第a列和第b列a$列名#也可以提取列(优秀写法,支持Tab自动补全哦,不过只能提取一列)plot(iris$Sepal.Length,iris$Sepal.Width)有几个问题,如果数据没处理完 ,或者a还没被赋值的时候,save a 会报错,提示找不到a;最后的plot,即是以R内置的iris数据中的两列数据作散点图,出现一个最基础的、x轴y轴一一对应的图像。

    23500编辑于 2024-01-21
  • 来自专栏生信菜鸟团

    数据挖掘 | 优质期刊 BIB,可重复且简单的 TCGA 数据分析思路

    对于年龄在18至55岁之间的乳腺癌患者,如果最高级别在I期被发现,5年存率为97%,可以通过适当的治疗治愈,而II期、III期和IV期的预期5年存率分别为92%、77%和28%。 图3展示了乳腺癌中前10个上调基因和前10个下调基因的蛋白质相互作用网络。 通过蛋白质相互作用分析,我们确定了四个枢纽瓶颈基因,即MYH2、MYL1、MYL2和MYH7。 图片说明 ◉ 图3 是 BRCA 的前10个上调基因和前10个下调基因的蛋白质相互作用网络。较大的不同颜色的圆圈代表前4个枢纽蛋白。 基于修正P值,表2和表3分别列出了前10个信号通路和功能分类。 表2和表3分别代表了基于修正P值的前10个信号通路和功能分类。 - 图片说明 ◉ 表2 BRCA中获得的DEGs的前10条信号通路。 image - 图片说明 ◉ 表3 BRCA中获得的DEGs的前10个基因本体术语。

    44300编辑于 2025-03-06
领券