搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏叶潭生信笔记
生信技能树数据挖掘笔记
————————图片转载自小洁忘了怎么分身图片R/Rstudio图片数据类型与向量图片tab键、上下键、ctr+L(back)逻辑型数据图片转换和判断图片数据的结构图片脚本直接双击打开，数据要load加载向量的生成图片数据类型的转换优先顺序图片对单个向量进行操作图片赋值是实际改变文件的方法图片图片中括号的作用可以把T挑选处理，丢弃F图片[]中括号里面的可以是逻辑值判断，可以是具体的值（即下标），可以是函数，可以是向量图片图片图片图片如何修改向量中的某个或者某些元素图片图片简单的向量作图图片图片数据框、矩阵和列表向量是一维的矩阵是二维的图片lis列表t可装万物图片数据框的来源图片新建数据框图片从文件中读取（放在工作目录下）图片数据框的属性图片dim()多少行、多少列，nrow()多少行，ncol（）多少列，rownames（）行名数据框取子集图片图片图片图片图片图片图片数据库数据框的修改图片图片图片图片图片图片图片矩阵新建和取子集（不支持$）图片矩阵的的转置、转换图片图片图片矩阵画热图图片图片列表的的新建和取子集图片 l[[2]]:取第二个子集，再取矩阵的子集列表支持$图片图片数据结构的总结图片函数和R包图片图片图片图片图片图片图片图片图片图片R包图片图片1.CRAN网站图片2.bioconductor图片3.github
1.1K10编辑于 2023-02-08
来自专栏DJ生信学习笔记
生信技能树-数据挖掘Day1
R语言：用函数处理数据R语言的命令提示符（有>代码才能运行）图片图片图片图片图片图片图片图片图片数值型字符不带引号；字符型带单引号或双引号；TRUE,FALSE需大写，NA means not available 判断数据类型的函数：class(), 将要判断的内容写在括号里图片看到Error中的unexpected，一般是代码有误some tips1 Tab-打出前几个字母即出现提示，按↑↓翻动，按Tab补全2 光标放在>后面，按↑键，即可修改上一条命令，按回车重新运行图片图片（格式重于内容）引用自生信技能树
30900编辑于 2023-08-07
来自专栏DJ生信学习笔记
生信技能树-数据挖掘Day2
（取子集）图片图片图片图片图片图片1、比较运算 2、数学计算 3、连接图片循环补齐发生的条件：等位运算；两个向量长度不相等图片图片图片图片图片unexpected是代码错误的关键词图片图片图片引用自生信技能树
18600编辑于 2023-08-08
生信星球——生信入门DAY5:数据结构
)表示1-10之间每0.5取一个数从向量中提取元素x[4] #x第4个元素x[-4]#排除法，除了第4个元素之外剩余的元素x[2:4]#第2到4个元素x[-(2:4)]#除了第2-4个元素x[c(1,5) ] #第1个和第5个元素x[x==10]#等于10的元素x[x<0]x[x %in% c(1,2,5)]#存在于向量c（1，2，5）中的元素数据框read.table(file="",sep="",header c(a,b)]#第a列和第b列a$列名#也可以提取列（优秀写法，支持Tab自动补全哦，不过只能提取一列）plot(iris$Sepal.Length,iris$Sepal.Width)有几个问题，如果数据没处理完，或者a还没被赋值的时候，save a 会报错，提示找不到a；最后的plot，即是以R内置的iris数据中的两列数据作散点图，出现一个最基础的、x轴y轴一一对应的图像。
23500编辑于 2024-01-21
来自专栏生信技能树
生信技能树GEO数据挖掘直播配套笔记
下面是（ GEO数据挖掘）直播配套笔记一、背景了解芯片数据：首选limma 。 (Group,levels = c("control","RA")) Group #2.探针注释的获取----------------- #捷径 library(tinyarray) # 这个包为生信技能树老师所写 require(stats) # 1.示例数据 x <- matrix(sample(1:30,30), ncol = 6) rownames(x) = paste0("gene",1:5) colnames s2e,by=c("symbol"="SYMBOL")) save(Group,deg,logFC_t,P.Value_t,gse_number,file = "step4output.Rdata") 5. emapplot(ego)#旧版本 } #(4)展示通路关系 https://zhuanlan.zhihu.com/p/99789859 #goplot(ego) goplot(ego_BP) #(5)
2.5K34编辑于 2022-06-08
来自专栏生信技能树
纯生信单细胞数据挖掘-全代码放送
考虑到咱们生信技能树粉丝对单细胞数据挖掘的需求，我开通了一个专栏《100个单细胞转录组数据降维聚类分群图表复现》，也亲自示范了几个，不过自己带娃，读博，时间精力有限，所以把剩余的90多个任务安排了学徒，实习生，学员。这次我们要复现的单细胞数据来自International Journal of Cancer 2020年发表的一篇单细胞相关的纯生信文章。该文章数据链接：GSE150321 2. 总结 1、单细胞数据复现可以提升自己对此类数据的理解和掌握。（跟着生信技能树Jimmy老师学习进步太快了） 2、不同人处理单细胞数据时设置的参数会有所不同，作者并没有在文章中给出太多相关信息，导致最终的结果有所不同。
4.9K78发布于 2021-05-27
来自专栏科研菌
仅用公开数据集发4+分纯生信数据挖掘
本篇文章中，作者用转移淋巴结的DNA甲基化数据研究乳腺癌的侵袭性。为了克服数据和转移性样本不足的问题，作者用一种基于DNA甲基化标志的新方法鉴定样本，并构建了一个识别侵袭性乳腺癌的分类器。 3.TCGA乳腺癌测试集验证分类器预测能力作者进一步从TCGA下载了BRCA HM450 DNA甲基化数据和临床数据，用766个原发性乳腺癌样本和97个正常样本组成测试集。，这12个中又有5个和乳腺癌转移有关（表2）。表2.已知的转移相关基因及其文献描述考虑到mRMR只需5个位点即可对训练集分类，作者分析了这5个位点的对应基因。结果表明2个位点位于基因体，剩下3个位点还没有注释，这5个位点可能成为乳腺癌转移的生物标志物。
65110发布于 2020-11-23
来自专栏生信学习小组
生信学习-Day5-数据结构
（5）向量是由元素组成的，元素可以是数字或者字符串。（6）表格在R语言中称为数据框。（7）别只复制代码，要理解其中的命令、函数的意思。 (1)a: 这是要写入文件的数据。 (4)quote = F: 这指定是否将数据的每个元素用引号括起来。F 是 FALSE 的缩写，意味着在输出的文件中，数据将不会被引号包围。综上所述，这段代码的作用是将名为 a 的数据集以CSV格式（逗号分隔）写入当前工作目录下的 "yu.txt" 文件，且数据字段不会被引号包围。 5.提取元素a[x,y]#第x行第y列a[x,]#第x行a[,y]#第y列a[y] #也是第y列a[a:b]#第a列到第b列或者 a[,a:b]a[a:b,]#第a行到第b行a[c(a,b)]#第a列和第
56310编辑于 2024-01-20
来自专栏生信学习Marathon
Day08 生信马拉松-GEO数据挖掘（上）
文章所有内容均来自生信技能树“生信马拉松-数据挖掘班”授课内容个人整理，如需转载请注明出处。 1. 为什么要做数据挖掘 1.1 挖掘的数据从哪里来图片 1.2 有什么可挖掘的数据类型基因表达芯片、转录组、单细胞、表观遗传、突变…… 1.3 如何筛选基因图片 2. 图表介绍 2.1 热图输入数据是数值型matrix/data.frame 颜色的变化表示数值的大小图片 2.2 散点图和箱线图—可互相转化输入数据是一个连续型vector和一个有重复值的离散型vector GEO挖掘实操 4.1 GEO数据集的下载获取 4.1.1 GEO挖掘需要准备的package options("repos"="https://mirrors.ustc.edu.cn/CRAN/") gpl_number <- eSet@annotation;gpl_number save(pd,exp,gpl_number,file = "step1output.Rdata") 以上内容均引用自生信技能树
88231编辑于 2023-08-19
生信技能树Day9 GEO数据挖掘差异分析
差异分析表格二分组数据差异分析#差异分析 limmalibrary(limma)design = model.matrix(~Group) # 生成模型矩阵fit = lmFit(exp,design) fit = eBayes(fit)deg = topTable(fit,coef = 2,number = Inf)分组多代码更复杂为deg数据框添加几列1.加probe_id列，把行名变成一列library 先把示例数据跑通，再把自己的数据改成示例数据的格式，最后修改参数。 ggthemes)library(org.Hs.eg.db)library(dplyr)library(ggplot2)library(stringr)library(enrichplot)(1)输入数据 clusterProfiler-book/index.html# GOplot：https://mp.weixin.qq.com/s/LonwdDhDn8iFUfxqSJ2Wew# 网上的资料和宝藏无穷无尽，学好R语言慢慢发掘~生信技能树
70611编辑于 2024-04-21
来自专栏生信学习Marathon
Day09 生信马拉松-GEO数据挖掘（中）
文章所有内容均来自生信技能树“生信马拉松-数据挖掘班”授课内容个人整理，如需转载请注明出处。 exp,Group,ids,file = "step2output.Rdata") 自主注释流程--了解即可图片 3.PCA与heatmap的绘制 3.1 PCA图 ######清空环境，加载需要的数据 ###### rm(list = ls()) load(file = "step2output.Rdata")#输入数据：exp和Group #Principal Component Analysis , scale = "row", #基因只在样本间对比，不跨行与其他基因对比 breaks = seq(-3,3,length.out = 100) #从-3到3生成以上内容均引用自生信技能树
73910编辑于 2023-08-19
来自专栏用户10800790的专栏
生信星球 day 5 ——橙子🍊
生信星球数据结构向量vector 标量：1个元素向量：多个元素从向量中提取元素 x[4] x[x==10] 位置、逻辑值数据框 a <- read.table(file='huahua.txt' file='yu.txt',sep=',',quote=F) save.image(file='') save(a,file='.Rdata') load('.Rdata') a[1,2] 内置数据框绘图
19250编辑于 2023-10-25
来自专栏生信技能树
生信技巧第5课-生信人必须安装的软件
长期更新列表：视频讲解-R爬取生信软件列表到思维导图生信技巧第二课-使用markdown记录和分享笔记生信技巧第3课-请你务必学好R语言 broad官网出品的必须神器 IGV 资料大全，含视频不知不觉就第5讲了，本次视频没有干货，只是为了保证入门系列视频的完整性而录制的，没啥事就不用看了，反正你需要安装一些软件就可以了。生信软件安装及使用 (官网，例子，conda) 多版本软件发布：NCBI的 blast以及sratoolkit 等等二进制软件(预编译版本)：下载即可使用 C源码软件：官网，readme，安装，解决配置文件及报错系统软件中心：ubuntu的用apt-get，centos的用yum，macOS的App Store或者brew 成熟的软件管理中心：conda 保证一个纯粹的新手，生物学的本科生，经过3个小时的折腾
2K30发布于 2018-07-27
第5天生信学习笔记-微信公众号生信星球
（4）显示工作路径 getwd()（5）向量是由元素组成的，元素可以是数字或者字符串。（6）表格在R语言中称为数据框^_^（7）别只复制代码，要理解其中的命令、函数的意思。这里的x是你刚才赋值的变量名，根据自己的情况来修改x[4] #x第4个元素x[-4]#排除法，除了第4个元素之外剩余的元素x[2:4]#第2到4个元素x[-(2:4)]#除了第2-4个元素x[c(1,5) ] #第1个和第5个元素（2）根据值x[x==10]#等于10的元素x[x<0]x[x %in% c(1,2,5)]#存在于向量c（1，2，5）中的元素Part2：数据框将示例数据放在你的工作目录下（！用以下命令即可获得示例数据框：X<-read.csv('doudou.txt')（1）读取本地数据（huahua.txt在示例数据里有，记得一定要放在工作目录里，否则报错。） "bioinfoplanet.RData")#保存当前所有变量save(a,file="test.RData")#保存其中一个变量load("test.RData")#再次使用RData时的加载命令（5）
48510编辑于 2024-02-24
生信技能树 Day8 9 GEO数据挖掘基因芯片数据
生信技能树图表介绍热图散点图箱线图火山图理解logFC 主成分分析 PCA样本聚类图基因芯片差异分析的起点是一个取过log的表达矩阵，得到数据后先看下有没有取log GEO背景知识数据库介绍查找和下载数据以GSE7305为例网站点击链接下载代码下载 #打破下载时间的限制,改前60秒，改后10w秒 options(timeout = 100000) options(scipen = (1)提取表达矩阵exp exp <- exprs(eSet) # exprs 提取数据的函数 dim(exp) # 多少行多少列 range(exp) # 看数据范围决定是否需要log，是否有负值，异常值比如GPL23126 解决方法见小洁老师语雀 https://www.yuque.com/xiaojiewanglezenmofenshen/kzgwzl/sv262capcgg9o8s5? -5~5之间 breaks = seq(-3,3,length.out = 100) #设置色带分布范围为-3~3之间，超出此范围的数字显示极限颜色 )
1.1K22编辑于 2024-04-20
生信入门DAY5-6
DAY5 本篇内容引自生信技能树六、R语言作图 1、作图分三类 #作图分三类 #1.基础包略显陈旧了解一下 plot(iris[,1],iris[,3],col = iris[,5]) text # 点的大小5mm alpha = 0.5, # 透明度 50% shape = 8) # 点的形状 #2.2 映射：按照数据框的某一列来定义图的某个属性 5、画图扩展部分（1）STHDA网站（2）工作目录里有扩展学习的代码（3）小洁老师语雀画图合集 DAY6 七、R语言的综合运用引自生信技能树 1、玩转字符串引自生信技能树 rm(list = ③GPL：看使用该平台的系列（GSE）和样本（GSM）数量，卖的好与不好； ④Ensembl：Ensembl数据库的基因ID，ENSGxxx；Entrez Gene：NCBI数据库给的gene ID，是数字 ⑤GSM芯片数据基因表达量的数据范围：0~20 取过log2的数据；0~几万没取log2；有<0 的，不正常数据，只能处理原始数据重新获得表达矩阵 ⑥GEO文件下载：只有芯片数据的文件大小是兆（M），
41220编辑于 2025-05-27
来自专栏生信入门
生信星球Day5 Linux
30020编辑于 2023-07-22
来自专栏生信学习小组（L）
生信学习小组Day5 -数据结构（L）
1.向量1.标量和向量的区分标量：一个元素组成的变量向量：多个元素组成的变量2.从向量中提取元素根据元素位置X[5]根据值X[x==10]2.数据框1.读取本地数据x<-read.table(file = "huahua.txt",sep = "\t",header = T)2.设置行名和列名colnames(x)#查看行名rownames(x)#查看列名3.数据框的导出write.table(X,file lyx.txt",sep = ",",quote=F)4.变量的保存与重新加载save.image(file="aa.RData")#保存变量load("test.RData")#再次使用RData时的加载命令5. 提取元素X[x,y]#第x行第y列X[x,]#第x行X[,y] X[y]#第y列X[a:b]#第a列到第b列X[c(a,b)]#第a列和第b列X$列名#也可以提取列,是高级用法6.直接使用数据框中的变量 iris是R语言的内置数据，可以直接使用。
33000编辑于 2023-01-13
来自专栏嗨嗨嗨
生信学习小组DAY5
（4）显示工作路径 getwd() （5）向量是由元素组成的，元素可以是数字或者字符串。（6）表格在R语言中改名叫数据框（7）函数或者命令不会用时，除了百度/谷歌搜索以外，用这个命令查看帮助：? 向量标量：一个元素组成的变量向量：多个元素组成的变量（补充：一个向量是一排有序排列的元素，以后会用到把一个向量作为数据框中的一列的情况。）图片赋值图片从向量中提取元素元素位置 x4 #x第4个元素 x-4#排除法，除了第4个元素之外剩余的元素 x2:4#第2到4个元素 x-(2:4)#除了第2-4个元素 xc(1,5) #第1个和第 5个元素图片根据值 xx==10#等于10的元素 xx<0 xx %in% c(1,2,5)#存在于向量c（1，2，5）中的元素图片数据框 X=read.table("\Rstudiotestdoudou.txt file = "yu.txt",sep = ",",quote=F) 图片变量的保存与重新加载这次没有处理完的数据下次想接着用怎么办?
38420编辑于 2023-07-01
来自专栏火星娃统计
GEO数据挖掘5
GEO数据挖掘5 sunqi 2020/7/13 GEO数据挖掘5 概述 GO和KEGG富集分析 KEGG全称 Kyoto Encyclopedia of Genes and Genomes，由日本京都大学生物信息学中心的数据库能够把基因及表达信息作为一个整体的网络进行研究，通俗点讲就是通过基因寻找通路 GO全称为gene ontology，由基因本体联合会（Gene Ontology Consortium）建立的数据库，数据库对基因和蛋白功能进行限定和描述 GEO数据挖掘离不来富集分析，单纯的差异表达基因不能说明什么问题，只有对基因根据现有知识做定义定位分类，这样才能在生物学上解释这个差异，也就是故事才能讲顺了注释：GO和KEGG的具体作用不再赘述，等代码实现完成之后后续再学习理论知识另外，KEGG和GO分析可以通过软件实现，具体参考官网数据预处理用到的数据集为差异分析后得到的数据集deg，详情见上章 rm by cytochrome P450 3/82 ## hsa04390 hsa04390 Hippo signaling pathway 5/
1.4K10发布于 2020-09-15

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

生信技能树数据挖掘笔记

生信技能树-数据挖掘Day1

生信技能树-数据挖掘Day2

生信星球——生信入门DAY5:数据结构

生信技能树GEO数据挖掘直播配套笔记

纯生信单细胞数据挖掘-全代码放送

仅用公开数据集发4+分纯生信数据挖掘

生信学习-Day5-数据结构

Day08 生信马拉松-GEO数据挖掘（上）

生信技能树Day9 GEO数据挖掘差异分析

Day09 生信马拉松-GEO数据挖掘（中）

生信星球 day 5 ——橙子🍊

生信技巧第5课-生信人必须安装的软件

第5天生信学习笔记-微信公众号生信星球

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

生信入门DAY5-6

生信星球Day5 Linux

生信学习小组Day5 -数据结构（L）

生信学习小组DAY5

GEO数据挖掘5

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

生信技能树数据挖掘笔记

生信技能树-数据挖掘Day1

生信技能树-数据挖掘Day2

生信星球——生信入门DAY5:数据结构

生信技能树GEO数据挖掘直播配套笔记

纯生信单细胞数据挖掘-全代码放送

仅用公开数据集发4+分纯生信数据挖掘

生信学习-Day5-数据结构

Day08 生信马拉松-GEO数据挖掘 （上）

生信技能树Day9 GEO数据挖掘 差异分析

Day09 生信马拉松-GEO数据挖掘 （中）

生信星球 day 5 ——橙子🍊

生信技巧第5课-生信人必须安装的软件

第5天生信学习笔记-微信公众号生信星球

生信技能树 Day8 9 GEO数据挖掘 基因芯片数据

生信入门DAY5-6

生信星球Day5 Linux

生信学习小组Day5 -数据结构（L）

生信学习小组DAY5

GEO数据挖掘5

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Day08 生信马拉松-GEO数据挖掘（上）

生信技能树Day9 GEO数据挖掘差异分析

Day09 生信马拉松-GEO数据挖掘（中）

生信技能树 Day8 9 GEO数据挖掘基因芯片数据