首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏叶潭生信笔记

    技能树数据挖掘笔记

    ————————图片转载自小洁忘了怎么分身图片R/Rstudio图片数据类型与向量图片tab键、上下键、ctr+L(back)逻辑型数据图片转换和判断图片数据的结构图片脚本直接双击打开,数据要load加载向量的生成图片数据类型的转换优先顺序图片对单个向量进行操作图片赋值是实际改变文件的方法图片图片 中括号的作用可以把T挑选处理,丢弃F图片[]中括号里面的可以是逻辑值判断,可以是具体的值(即下标),可以是函数,可以是向量图片图片图片图片如何修改向量中的某个或者某些元素图片图片简单的向量作图图片图片数据框 、矩阵和列表向量是一维的矩阵是二维的图片lis列表t可装万物图片数据框的来源图片新建数据框图片从文件中读取(放在工作目录下)图片数据框的属性图片dim()多少行、多少列,nrow()多少行,ncol() 多少列,rownames()行名数据框取子集图片图片图片图片图片图片图片数据数据框的修改图片图片图片图片图片图片图片矩阵新建和取子集(不支持$)图片矩阵的的转置、转换图片图片图片矩阵画热图图片图片列表的的新建和取子集图片 l[[2]]:取第二个子集,再取矩阵的子集列表支持$图片图片数据结构的总结图片函数和R包图片图片图片图片图片图片图片图片图片图片R包图片图片1.CRAN网站图片2.bioconductor图片3.github

    1.1K10编辑于 2023-02-08
  • 来自专栏DJ生信学习笔记

    技能树-数据挖掘Day1

    R语言:用函数处理数据R语言的命令提示符(有>代码才能运行)图片图片图片图片图片图片图片图片图片数值型字符不带引号;字符型带单引号或双引号;TRUE,FALSE需大写,NA means not available 判断数据类型的函数:class(), 将要判断的内容写在括号里图片看到Error中的unexpected,一般是代码有误some tips1 Tab-打出前几个字母即出现提示,按↑↓翻动,按Tab补全2 光标放在>后面,按↑键,即可修改上一条命令,按回车重新运行图片图片(格式重于内容)引用自生技能树

    30900编辑于 2023-08-07
  • 来自专栏DJ生信学习笔记

    技能树-数据挖掘Day2

    (取子集)图片图片图片图片图片图片1、比较运算 2、数学计算 3、连接图片循环补齐发生的条件:等位运算;两个向量长度不相等图片图片图片图片图片unexpected是代码错误的关键词图片图片图片引用自生技能树

    18600编辑于 2023-08-08
  • 星球——入门DAY5:数据结构

    )表示1-10之间每0.5取一个数从向量中提取元素x[4] #x第4个元素x[-4]#排除法,除了第4个元素之外剩余的元素x[2:4]#第2到4个元素x[-(2:4)]#除了第2-4个元素x[c(1,5) ] #第1个和第5个元素x[x==10]#等于10的元素x[x<0]x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素数据框read.table(file="",sep="",header c(a,b)]#第a列和第b列a$列名#也可以提取列(优秀写法,支持Tab自动补全哦,不过只能提取一列)plot(iris$Sepal.Length,iris$Sepal.Width)有几个问题,如果数据没处理完 ,或者a还没被赋值的时候,save a 会报错,提示找不到a;最后的plot,即是以R内置的iris数据中的两列数据作散点图,出现一个最基础的、x轴y轴一一对应的图像。

    23500编辑于 2024-01-21
  • 来自专栏生信技能树

    技能树GEO数据挖掘直播配套笔记

    下面是( GEO数据挖掘 )直播配套笔记 一、背景了解 芯片数据:首选limma 。 (Group,levels = c("control","RA")) Group #2.探针注释的获取----------------- #捷径 library(tinyarray) # 这个包为生技能树老师所写 require(stats) # 1.示例数据 x <- matrix(sample(1:30,30), ncol = 6) rownames(x) = paste0("gene",1:5) colnames s2e,by=c("symbol"="SYMBOL")) save(Group,deg,logFC_t,P.Value_t,gse_number,file = "step4output.Rdata") 5. emapplot(ego)#旧版本 } #(4)展示通路关系 https://zhuanlan.zhihu.com/p/99789859 #goplot(ego) goplot(ego_BP) #(5)

    2.5K34编辑于 2022-06-08
  • 来自专栏生信技能树

    单细胞数据挖掘-全代码放送

    考虑到咱们技能树粉丝对单细胞数据挖掘的需求,我开通了一个专栏《100个单细胞转录组数据降维聚类分群图表复现》,也亲自示范了几个,不过自己带娃,读博,时间精力有限,所以把剩余的90多个任务安排了学徒, 实习,学员。 这次我们要复现的单细胞数据来自International Journal of Cancer 2020年发表的一篇单细胞相关的纯信文章。该文章数据链接:GSE150321 2. 总结 1、单细胞数据复现可以提升自己对此类数据的理解和掌握。 (跟着技能树Jimmy老师学习进步太快了) 2、不同人处理单细胞数据时设置的参数会有所不同,作者并没有在文章中给出太多相关信息,导致最终的结果有所不同。

    4.9K78发布于 2021-05-27
  • 来自专栏科研菌

    仅用公开数据集发4+分纯数据挖掘

    本篇文章中,作者用转移淋巴结的DNA甲基化数据研究乳腺癌的侵袭性。为了克服数据和转移性样本不足的问题,作者用一种基于DNA甲基化标志的新方法鉴定样本,并构建了一个识别侵袭性乳腺癌的分类器。 3.TCGA乳腺癌测试集验证分类器预测能力 作者进一步从TCGA下载了BRCA HM450 DNA甲基化数据和临床数据,用766个原发性乳腺癌样本和97个正常样本组成测试集。 ,这12个中又有5个和乳腺癌转移有关(表2)。 表2.已知的转移相关基因及其文献描述 考虑到mRMR只需5个位点即可对训练集分类,作者分析了这5个位点的对应基因。 结果表明2个位点位于基因体,剩下3个位点还没有注释,这5个位点可能成为乳腺癌转移的生物标志物。

    65110发布于 2020-11-23
  • 来自专栏生信学习小组

    学习-Day5-数据结构

    5)向量是由元素组成的,元素可以是数字或者字符串。(6)表格在R语言中称为数据框。(7)别只复制代码,要理解其中的命令、函数的意思。 (1)a: 这是要写入文件的数据。 (4)quote = F: 这指定是否将数据的每个元素用引号括起来。F 是 FALSE 的缩写,意味着在输出的文件中,数据将不会被引号包围。 综上所述,这段代码的作用是将名为 a 的数据集以CSV格式(逗号分隔)写入当前工作目录下的 "yu.txt" 文件,且数据字段不会被引号包围。 5.提取元素a[x,y]#第x行第y列a[x,]#第x行a[,y]#第y列a[y] #也是第y列a[a:b]#第a列到第b列或者 a[,a:b]a[a:b,]#第a行到第b行a[c(a,b)]#第a列和第

    56310编辑于 2024-01-20
  • 来自专栏生信学习Marathon

    Day08 马拉松-GEO数据挖掘 (上)

    文章所有内容均来自生技能树“马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 1. 为什么要做数据挖掘 1.1 挖掘数据从哪里来 图片 1.2 有什么可挖掘数据类型 基因表达芯片、转录组、单细胞、表观遗传、突变…… 1.3 如何筛选基因 图片 2. 图表介绍 2.1 热图 输入数据是数值型matrix/data.frame 颜色的变化表示数值的大小 图片 2.2 散点图和箱线图—可互相转化 输入数据是一个连续型vector和一个有重复值的离散型vector GEO挖掘实操 4.1 GEO数据集的下载获取 4.1.1 GEO挖掘需要准备的package options("repos"="https://mirrors.ustc.edu.cn/CRAN/") gpl_number <- eSet@annotation;gpl_number save(pd,exp,gpl_number,file = "step1output.Rdata") 以上内容均引用自生技能树

    88231编辑于 2023-08-19
  • 技能树Day9 GEO数据挖掘 差异分析

    差异分析表格二分组数据差异分析#差异分析 limmalibrary(limma)design = model.matrix(~Group) # 生成模型矩阵fit = lmFit(exp,design) fit = eBayes(fit)deg = topTable(fit,coef = 2,number = Inf)分组多代码更复杂为deg数据框添加几列1.加probe_id列,把行名变成一列library 先把示例数据跑通,再把自己的数据改成示例数据的格式,最后修改参数。 ggthemes)library(org.Hs.eg.db)library(dplyr)library(ggplot2)library(stringr)library(enrichplot)(1)输入数据 clusterProfiler-book/index.html# GOplot:https://mp.weixin.qq.com/s/LonwdDhDn8iFUfxqSJ2Wew# 网上的资料和宝藏无穷无尽,学好R语言慢慢发掘~技能树

    70611编辑于 2024-04-21
  • 来自专栏生信学习Marathon

    Day09 马拉松-GEO数据挖掘 (中)

    文章所有内容均来自生技能树“马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 exp,Group,ids,file = "step2output.Rdata") 自主注释流程--了解即可 图片 3.PCA与heatmap的绘制 3.1 PCA图 ######清空环境,加载需要的数据 ###### rm(list = ls()) load(file = "step2output.Rdata")#输入数据:exp和Group #Principal Component Analysis , scale = "row", #基因只在样本间对比,不跨行与其他基因对比 breaks = seq(-3,3,length.out = 100) #从-3到3成 以上内容均引用自生技能树

    73910编辑于 2023-08-19
  • 来自专栏用户10800790的专栏

    星球 day 5 ——橙子🍊

    星球数据结构 向量vector 标量:1个元素 向量:多个元素 从向量中提取元素 x[4] x[x==10] 位置、逻辑值 数据框 a <- read.table(file='huahua.txt' file='yu.txt',sep=',',quote=F) save.image(file='') save(a,file='.Rdata') load('.Rdata') a[1,2] 内置数据框绘图

    19250编辑于 2023-10-25
  • 来自专栏生信技能树

    技巧第5课-人必须安装的软件

    长期更新列表: 视频讲解-R爬取软件列表到思维导图 技巧第二课-使用markdown记录和分享笔记 技巧第3课-请你务必学好R语言 broad官网出品的 必须神器 IGV 资料大全,含视频 不知不觉就第5讲了,本次视频没有干货,只是为了保证入门系列视频的完整性而录制的,没啥事就不用看了,反正你需要安装一些软件就可以了。 软件安装及使用 (官网,例子,conda) 多版本软件发布:NCBI的 blast以及sratoolkit 等等 二进制软件(预编译版本):下载即可使用 C源码软件:官网,readme,安装,解决配置文件及报错 系统软件中心:ubuntu的用apt-get,centos的用yum,macOS的App Store或者brew 成熟的软件管理中心:conda 保证一个纯粹的新手,生物学的本科,经过3个小时的折腾

    2K30发布于 2018-07-27
  • 5学习笔记-微公众号星球

    (4)显示工作路径 getwd()(5)向量是由元素组成的,元素可以是数字或者字符串。(6)表格在R语言中称为数据框^_^(7)别只复制代码,要理解其中的命令、函数的意思。 这里的x是你刚才赋值的变量名,根据自己的情况来修改x[4] #x第4个元素x[-4]#排除法,除了第4个元素之外剩余的元素x[2:4]#第2到4个元素x[-(2:4)]#除了第2-4个元素x[c(1,5) ] #第1个和第5个元素(2)根据值x[x==10]#等于10的元素x[x<0]x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素Part2:数据框将示例数据放在你的工作目录下(! 用以下命令即可获得示例数据框:X<-read.csv('doudou.txt')(1)读取本地数据(huahua.txt在示例数据里有,记得一定要放在工作目录里,否则报错。) "bioinfoplanet.RData")#保存当前所有变量save(a,file="test.RData")#保存其中一个变量load("test.RData")#再次使用RData时的加载命令(5

    48510编辑于 2024-02-24
  • 技能树 Day8 9 GEO数据挖掘 基因芯片数据

    技能树 图表介绍 热图 散点图 箱线图 火山图 理解logFC 主成分分析 PCA样本聚类图 基因芯片差异分析的起点是一个取过log的表达矩阵,得到数据后先看下有没有取log GEO背景知识 数据库介绍 查找和下载数据 以GSE7305为例 网站点击链接下载 代码下载 #打破下载时间的限制,改前60秒,改后10w秒 options(timeout = 100000) options(scipen = (1)提取表达矩阵exp exp <- exprs(eSet) # exprs 提取数据的函数 dim(exp) # 多少行多少列 range(exp) # 看数据范围决定是否需要log,是否有负值,异常值 比如GPL23126 解决方法见小洁老师语雀 https://www.yuque.com/xiaojiewanglezenmofenshen/kzgwzl/sv262capcgg9o8s5? -5~5之间 breaks = seq(-3,3,length.out = 100) #设置色带分布范围为-3~3之间,超出此范围的数字显示极限颜色 )

    1.1K22编辑于 2024-04-20
  • 入门DAY5-6

    DAY5 本篇内容引自生技能树 六、R语言作图 1、作图分三类 #作图分三类 #1.基础包 略显陈旧 了解一下 plot(iris[,1],iris[,3],col = iris[,5]) text # 点的大小5mm alpha = 0.5, # 透明度 50% shape = 8) # 点的形状 #2.2 映射:按照数据框的某一列来定义图的某个属性 5、画图扩展部分 (1)STHDA网站 (2)工作目录里有扩展学习的代码 (3)小洁老师语雀画图合集 DAY6 七、R语言的综合运用 引自生技能树 1、玩转字符串 引自生技能树 rm(list = ③GPL:看使用该平台的系列(GSE)和样本(GSM)数量,卖的好与不好; ④Ensembl:Ensembl数据库的基因ID,ENSGxxx;Entrez Gene:NCBI数据库给的gene ID,是数字 ⑤GSM芯片数据基因表达量的数据范围:0~20 取过log2的数据;0~几万 没取log2;有<0 的,不正常数据,只能处理原始数据重新获得表达矩阵 ⑥GEO文件下载:只有芯片数据的文件大小是兆(M),

    41220编辑于 2025-05-27
  • 来自专栏生信入门

    星球Day5 Linux

    30020编辑于 2023-07-22
  • 来自专栏生信学习小组(L)

    学习小组Day5 -数据结构(L)

    1.向量1.标量和向量的区分标量:一个元素组成的变量向量:多个元素组成的变量2.从向量中提取元素根据元素位置X[5]根据值X[x==10]2.数据框1.读取本地数据x<-read.table(file = "huahua.txt",sep = "\t",header = T)2.设置行名和列名colnames(x)#查看行名rownames(x)#查看列名3.数据框的导出write.table(X,file lyx.txt",sep = ",",quote=F)4.变量的保存与重新加载save.image(file="aa.RData")#保存变量load("test.RData")#再次使用RData时的加载命令5. 提取元素X[x,y]#第x行第y列X[x,]#第x行X[,y] X[y]#第y列X[a:b]#第a列到第b列X[c(a,b)]#第a列和第b列X$列名#也可以提取列,是高级用法6.直接使用数据框中的变量 iris是R语言的内置数据,可以直接使用。

    33000编辑于 2023-01-13
  • 来自专栏嗨嗨嗨

    学习小组DAY5

    (4)显示工作路径 getwd() (5)向量是由元素组成的,元素可以是数字或者字符串。 (6)表格在R语言中改名叫数据框 (7)函数或者命令不会用时,除了百度/谷歌搜索以外,用这个命令查看帮助:? 向量 标量:一个元素组成的变量 向量:多个元素组成的变量 (补充:一个向量是一排有序排列的元素,以后会用到把一个向量作为数据框中的一列的情况。) 图片 赋值 图片 从向量中提取元素 元素位置 x4 #x第4个元素 x-4#排除法,除了第4个元素之外剩余的元素 x2:4#第2到4个元素 x-(2:4)#除了第2-4个元素 xc(1,5) #第1个和第 5个元素 图片 根据值 xx==10#等于10的元素 xx<0 xx %in% c(1,2,5)#存在于向量c(1,2,5)中的元素 图片 数据框 X=read.table("\Rstudiotestdoudou.txt file = "yu.txt",sep = ",",quote=F) 图片 变量的保存与重新加载 这次没有处理完的数据下次想接着用怎么办?

    38420编辑于 2023-07-01
  • 来自专栏火星娃统计

    GEO数据挖掘5

    GEO数据挖掘5 sunqi 2020/7/13 GEO数据挖掘5 概述 GO和KEGG富集分析 KEGG全称 Kyoto Encyclopedia of Genes and Genomes,由日本京都大学生物信息学中心的 数据库能够把基因及表达信息作为一个整体的网络进行研究,通俗点讲就是通过基因寻找通路 GO全称为gene ontology,由基因本体联合会(Gene Ontology Consortium)建立的数据库 ,数据库对基因和蛋白功能进行限定和描述 GEO数据挖掘离不来富集分析,单纯的差异表达基因不能说明什么问题,只有对基因根据现有知识做定义定位分类,这样才能在生物学上解释这个差异,也就是故事才能讲顺了 注释 :GO和KEGG的具体作用不再赘述,等代码实现完成之后后续再学习理论知识 另外,KEGG和GO分析可以通过软件实现,具体参考官网 数据预处理 用到的数据集为差异分析后得到的数据集deg,详情见上章 rm by cytochrome P450 3/82 ## hsa04390 hsa04390 Hippo signaling pathway 5/

    1.4K10发布于 2020-09-15
领券