首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏叶潭生信笔记

    技能树数据挖掘笔记

    ————————图片转载自小洁忘了怎么分身图片R/Rstudio图片数据类型与向量图片tab键、上下键、ctr+L(back)逻辑型数据图片转换和判断图片数据的结构图片脚本直接双击打开,数据要load加载向量的生成图片数据类型的转换优先顺序图片对单个向量进行操作图片赋值是实际改变文件的方法图片图片 改为由大到小duplicated()判断是否重复R语言默认思想;R语言函数思想,能用函数替代的,不要手动去数对两个向量的操作图片图片发生循环补齐图片图片图片% in %图片图片图片向量取子集图片x <- 8: 中括号的作用可以把T挑选处理,丢弃F图片[]中括号里面的可以是逻辑值判断,可以是具体的值(即下标),可以是函数,可以是向量图片图片图片图片如何修改向量中的某个或者某些元素图片图片简单的向量作图图片图片数据框 、矩阵和列表向量是一维的矩阵是二维的图片lis列表t可装万物图片数据框的来源图片新建数据框图片从文件中读取(放在工作目录下)图片数据框的属性图片dim()多少行、多少列,nrow()多少行,ncol() 多少列,rownames()行名数据框取子集图片图片图片图片图片图片图片数据数据框的修改图片图片图片图片图片图片图片矩阵新建和取子集(不支持$)图片矩阵的的转置、转换图片图片图片矩阵画热图图片图片列表的的新建和取子集图片

    1.1K10编辑于 2023-02-08
  • 技能树 Day8 9 GEO数据挖掘 基因芯片数据

    技能树 图表介绍 热图 散点图 箱线图 火山图 理解logFC 主成分分析 PCA样本聚类图 基因芯片差异分析的起点是一个取过log的表达矩阵,得到数据后先看下有没有取log GEO背景知识 数据库介绍 pd = pd[s,] } 有多个分组,怎么提取两个分组 #现编一个三分组 pd$group = rep(c("group1","group2","group3"),times = c(6,6,8) ,按需学习 https://mp.weixin.qq.com/s/0g8XkhXM3PndtPd-BUiVgw Group(实验分组)和ids(探针注释) rm(list = ls()) load( 比如GPL23126 解决方法见小洁老师语雀 https://www.yuque.com/xiaojiewanglezenmofenshen/kzgwzl/sv262capcgg9o8s5? 一般不影响,下载下来是有数据的 方法3 官网下载注释文件并读取 方法4 自主注释,了解一下 https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA 不是所有芯片注释都能找到

    1.1K22编辑于 2024-04-20
  • 来自专栏DJ生信学习笔记

    技能树-数据挖掘Day1

    R语言:用函数处理数据R语言的命令提示符(有>代码才能运行)图片图片图片图片图片图片图片图片图片数值型字符不带引号;字符型带单引号或双引号;TRUE,FALSE需大写,NA means not available 判断数据类型的函数:class(), 将要判断的内容写在括号里图片看到Error中的unexpected,一般是代码有误some tips1 Tab-打出前几个字母即出现提示,按↑↓翻动,按Tab补全2 光标放在>后面,按↑键,即可修改上一条命令,按回车重新运行图片图片(格式重于内容)引用自生技能树

    30900编辑于 2023-08-07
  • 来自专栏DJ生信学习笔记

    技能树-数据挖掘Day2

    (取子集)图片图片图片图片图片图片1、比较运算 2、数学计算 3、连接图片循环补齐发生的条件:等位运算;两个向量长度不相等图片图片图片图片图片unexpected是代码错误的关键词图片图片图片引用自生技能树

    18600编辑于 2023-08-08
  • 来自专栏生信技能树

    技能树GEO数据挖掘直播配套笔记

    下面是( GEO数据挖掘 )直播配套笔记 一、背景了解 芯片数据:首选limma 。 (Group,levels = c("control","RA")) Group #2.探针注释的获取----------------- #捷径 library(tinyarray) # 这个包为生技能树老师所写 product=hg-u133-plus # 方法4 自主注释 #https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA save(exp,Group,ids ego_BP) #(5)Heatmap-like functional classification heatplot(ego,foldChange = geneList,showCategory = 8) # 网上的资料和宝藏无穷无尽,学好R语言慢慢发掘~ # 弦图 ego1 <- data.frame(ego_BP) colnames(ego1) ego1 <- ego1[1:10,c(1,2,8,6

    2.5K34编辑于 2022-06-08
  • 来自专栏生信技能树

    单细胞数据挖掘-全代码放送

    考虑到咱们技能树粉丝对单细胞数据挖掘的需求,我开通了一个专栏《100个单细胞转录组数据降维聚类分群图表复现》,也亲自示范了几个,不过自己带娃,读博,时间精力有限,所以把剩余的90多个任务安排了学徒, 实习,学员。 这次我们要复现的单细胞数据来自International Journal of Cancer 2020年发表的一篇单细胞相关的纯信文章。该文章数据链接:GSE150321 2. subset_account),"%",sep = "") pie(subset_account,labels=per.cell) 文章中的各亚群占比 我们的计算结果如下,结果显示我们的计算结果和原文结果类似 Step 8、 (跟着技能树Jimmy老师学习进步太快了) 2、不同人处理单细胞数据时设置的参数会有所不同,作者并没有在文章中给出太多相关信息,导致最终的结果有所不同。

    4.9K78发布于 2021-05-27
  • 来自专栏科研菌

    仅用公开数据集发4+分纯数据挖掘

    上的一篇文章,“Computational Detection of Breast Cancer Invasiveness with DNA Methylation Biomarkers ”,作者在3个数据集中筛选了差异甲基化 CpG位点,用4种不同的降维方法处理数据后构建分类器,并结合临床特征进行富集分析评估分类器的预测能力,为临床侵袭性乳腺癌的诊断提供帮助。 本篇文章中,作者用转移淋巴结的DNA甲基化数据研究乳腺癌的侵袭性。为了克服数据和转移性样本不足的问题,作者用一种基于DNA甲基化标志的新方法鉴定样本,并构建了一个识别侵袭性乳腺癌的分类器。 GSE58999:44对原发性乳腺癌和区域转移样本 GSE66695:80个原发性乳腺癌样本和40个正常样本 TCGA:766个原发性乳腺癌样本和97个正常样本 作者用393806个探针计算了数据集中任意两个匹配样本间的欧几里得距离 3.TCGA乳腺癌测试集验证分类器预测能力 作者进一步从TCGA下载了BRCA HM450 DNA甲基化数据和临床数据,用766个原发性乳腺癌样本和97个正常样本组成测试集。

    65110发布于 2020-11-23
  • 来自专栏生信学习Marathon

    Day08 马拉松-GEO数据挖掘 (上)

    文章所有内容均来自生技能树“马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 1. 为什么要做数据挖掘 1.1 挖掘数据从哪里来 图片 1.2 有什么可挖掘数据类型 基因表达芯片、转录组、单细胞、表观遗传、突变…… 1.3 如何筛选基因 图片 2. 图表介绍 2.1 热图 输入数据是数值型matrix/data.frame 颜色的变化表示数值的大小 图片 2.2 散点图和箱线图—可互相转化 输入数据是一个连续型vector和一个有重复值的离散型vector GEO挖掘实操 4.1 GEO数据集的下载获取 4.1.1 GEO挖掘需要准备的package options("repos"="https://mirrors.ustc.edu.cn/CRAN/") gpl_number <- eSet@annotation;gpl_number save(pd,exp,gpl_number,file = "step1output.Rdata") 以上内容均引用自生技能树

    88231编辑于 2023-08-19
  • 技能树Day9 GEO数据挖掘 差异分析

    差异分析表格二分组数据差异分析#差异分析 limmalibrary(limma)design = model.matrix(~Group) # 生成模型矩阵fit = lmFit(exp,design) fit = eBayes(fit)deg = topTable(fit,coef = 2,number = Inf)分组多代码更复杂为deg数据框添加几列1.加probe_id列,把行名变成一列library 先把示例数据跑通,再把自己的数据改成示例数据的格式,最后修改参数。 叔的书:http://yulab-smu.top/clusterProfiler-book/index.html# GOplot:https://mp.weixin.qq.com/s/LonwdDhDn8iFUfxqSJ2Wew # 网上的资料和宝藏无穷无尽,学好R语言慢慢发掘~技能树

    70611编辑于 2024-04-21
  • 来自专栏生信学习Marathon

    Day09 马拉松-GEO数据挖掘 (中)

    文章所有内容均来自生技能树“马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。 = ids2[ k1 & k2,] # ids = ids2 } # 方法3 官网下载注释文件并读取 # 方法4 自主注释 #https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA exp,Group,ids,file = "step2output.Rdata") 自主注释流程--了解即可 图片 3.PCA与heatmap的绘制 3.1 PCA图 ######清空环境,加载需要的数据 , scale = "row", #基因只在样本间对比,不跨行与其他基因对比 breaks = seq(-3,3,length.out = 100) #从-3到3成 以上内容均引用自生技能树

    73910编辑于 2023-08-19
  • 来自专栏生信技能树

    编程8.ID转换

    最近他们跟我反馈面试找不到或者说很难直接考核筛选到认真干活的工程师,挺有意思的。让我想起来了早在生技能树论坛创立之初我为了引流,而规划的200个工程师面试题。 值得继续分享: 200个工程师面试考题 为什么要进行ID转化? 简单来说,ID转换就是找到对应的关系表,然后用bash或者字典对应一下即可。 IDs 解释 来源 entrez ID 自于NCBI旗下的Entrez gene数据库所使用的编号 Entrez Gene数据库(NCBI中的Gene数据库) EnsembleID Ensembl数据库的 ID编号 Ensembl基因组数据库 Gene Symbol HUGO Gene Symbol(也叫做HGNC Symbol,即基因符号)是HGNC组织对基因进行命名描述的一个缩写标识符(如:TP53) Ensembl 数据库非常贴心的为我们提供了ID History Converter工具帮助使用者进行ID的新旧版本的转换。

    2.2K10发布于 2021-03-24
  • 来自专栏百味科研芝士

    如何利用数据库来深入挖掘突变相关课题

    如何利用ICGC数据库来寻找一个突变相关课题 昨天我们介绍了ICGC来浏览PCAWG数据的基本功能。昨天的那样介绍,稍微有一些零散,所以我们可以假设一个例子来使用ICGC数据库分析一下看一看。 这里我们以食管癌举例: 1.1 查看食管癌当中插入突变的结果 在ICGC的数据库的筛选栏当中,我们在 Donors中的样本类型当中选择食管,在Mutations中的突变类型选择插入。 的数据筛选和分析过程当中,我们可以获得三个不同癌种当中和插入突变有关的基因数据集。这个时候,我们可以对这三个数据集进行交叉分析。来寻找和三个癌种都有关系的突变基因。 ICGC提供了交叉分析的入口。 在这里我们选择Select就可以选择数据集进行交叉了。 ? 在Select里面选择我们之后筛选获得的三个数据集。点击Run即可获得结果。 ? 3.数据的进一步分析 经过上面的分析,我们发现了有269个基因的插入突变会影响。但是我们研究的话,不能把269个基因都进行研究的。所以要挑选一个来进行研究的。

    1.3K30发布于 2020-09-22
  • 星球——入门DAY5:数据结构

    个元素x[-(2:4)]#除了第2-4个元素x[c(1,5)] #第1个和第5个元素x[x==10]#等于10的元素x[x<0]x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素数据框 c(a,b)]#第a列和第b列a$列名#也可以提取列(优秀写法,支持Tab自动补全哦,不过只能提取一列)plot(iris$Sepal.Length,iris$Sepal.Width)有几个问题,如果数据没处理完 ,或者a还没被赋值的时候,save a 会报错,提示找不到a;最后的plot,即是以R内置的iris数据中的两列数据作散点图,出现一个最基础的、x轴y轴一一对应的图像。

    23500编辑于 2024-01-21
  • 来自专栏生信菜鸟团

    数据挖掘 | 优质期刊 BIB,可重复且简单的 TCGA 数据分析思路

    对于年龄在18至55岁之间的乳腺癌患者,如果最高级别在I期被发现,5年存率为97%,可以通过适当的治疗治愈,而II期、III期和IV期的预期5年存率分别为92%、77%和28%。 四个红色圆形节点,即MYL1、MYH2、MYL2和ACTL8,被认为是重要的枢纽基因,四个菱形转录因子节点,即YY1、FOXC1、FOXL1和MEF2A,被认为是调控分子。 Survival analysis results 生存分析结果 Para_32 生存分析表明,在差异表达基因分析中发现的前10个上调基因和下调基因中,只有4个基因与乳腺癌的预后相关,即ACTL8、CGA 图片说明 ◉ 图7 ACTL8、CGA、IBSP和MUC2基因的整体生存率。 图8显示了精确率-召回率曲线,而图9显示了四个不同模型的ROC曲线。 图片说明 ◉ 图8是随机森林、高斯朴素贝叶斯、K近邻和支持向量机(XGBoost)机器学习模型的精确率-召回曲线。

    44300编辑于 2025-03-06
  • 来自专栏生信技能树生信入门马拉松

    Day8 GEO数据挖掘

    差异分析中的log默认是log2GEO数据库介绍三部分信息:系列号-样本号-平台信息基因芯片:探针的表达量代表基因的表达量,探针与序列绑定芯片数据数据Type: Expression profiling by array转录组测序: 数据Type: Expression profiling by high throughput sequencing找数据1.直接取GEO官网找2.文献中找下载数据1.传统下载方式 ', getGPL = F)2.从网页上下载/发链接让别人帮忙下,放在工作目录里需要下载表达数据、临床信息、GPL编号表达数据:看数据范围决定是否需要log,是否有负值,异常值看是否有异常样本:样本间的表达量较一致 ,在0-20间,如果都小于4则说明取了不止一次log异常样本处理:1.删除2.代码拉平:exp = limma::normalizeBetweenArrays(exp)负值分情况讨论:2.3两种情况的数据弃用取过 log,少量负值--正常没取log,有负值--错误数据3.有一半负值,中位数为0--做了标准化

    35010编辑于 2024-05-08
  • 来自专栏生信马拉松

    马拉松 Day8 GEO数据分析课程笔记

    ,所以旧的数据仍然可以有新的解释,同一个数据集也可以在和其他数据集用不同的思路分析 我们的分析目的:寻找患者和对照组之间基因表达量差异 数据从哪来 当数据分析能力到达一定程度,来源就只是来源,不影响分析的步骤 有什么类型的数据挖掘 基因表达芯片、转录组、单细胞 共同特点:都是为了获取每个样本里基因的表达量多少(除了单细胞) 转录组相对高级,但是都照样用,原理和分析步骤略有差别 单细胞的分辨率更高,一列不再是样本而是细胞 ,因此用个人计算机处理可能存在算力不足的情况 当然不只是表达量数据,只是我们学习时往往从表达量开始 其他可以研究的内容包括但不限于:突变、表观 最后目标是筛选和我目标疾病相关的差异表达的基因 数据分析的步骤 算法不同可以让模棱两可内容结果发生差别,但不会让风马牛不相及的数据聚类在一起 相关性热图(相关系数在-1~1之间,你大我也大的关系,在0附近表示没有相关) 一般不画全部基因的热图,原因如下: 1.数据太大 注意:不要选择少于6个样本的数据(每组至少3个,满足最小重复)

    93811编辑于 2024-01-25
  • 来自专栏从头开始的生信学习

    从零开始的异世界学习 GEO数据数据挖掘--GEO背景知识简介

    技能树 科研图表介绍 图片 1.热图 图片 输入的数据是数值型矩阵/数据框 颜色变化表示数值的大小 一般冷色调表示小的数字,暖色调表示大的数字 热图中包括聚类树,因此热图中的行列顺序与原数据不同,但是行和列内的数据无变化 它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。 主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。 箱形图的绘制步骤: 1、画数轴,度量单位大小和数据批的单位一致,起点比最小值稍小,长度比该数据批的全距稍长。 2、画一个矩形盒,两端边的位置分别对应数据批的上下四分位数(Q3和Q1)。 相同值的数据点并列标出在同一数据线位置上,不同值的数据点标在不同数据线位置上。至此一批数据的箱形图便绘出了。统计软件绘制的箱形图一般没有标出内限和外限。

    2.5K10编辑于 2023-03-07
  • 来自专栏科研猫

    7分+非肿瘤 | 数据挖掘+简单的ELISA 检测!干湿结合,可复性强!

    2 研究流程 人脑组织的MS表达谱数据从 Gene Expression Omnibus (GEO) 下载; 通过蛋白质注释数据库筛选细胞外蛋白质差异表达基因(EP-DEGs); GO和KEGG用于分析 图A:①HPA数据库中标注的编码胞外蛋白的基因与DEGs相交②Uniprot数据库中标注的编码胞外蛋白的基因与DEGs进行交叉筛③将两种方法结合起来,共获得133个EP-DEGs。 图 8A-C :RRMS 患者的 Del-1 和 resolvinD1 水平升高,RRMS 患者的 IL17A 水平降低。 图8D-F:与临床指标的相关性分析显示,RRMS患者脑脊液中resolvinD1水平与Del-1呈正相关,与蛋白质和IgA呈负相关 图8 表3:RRMS患者和对照样本的临床病理特征 表4:RRMS 本篇研究所用数据挖掘方法均可在我们的精品课程中学习和升级!

    71020编辑于 2022-04-09
  • 来自专栏作图丫

    8+非肿瘤分析!快来学习吧~

    今天小编为大家带来的这篇文章,作者致力于研究多发性硬化症中细胞外蛋白的功能与挖掘相关生物标志物。 数据介绍 本研究所用MS表达数据来自GEO数据库。通过蛋白质注释数据库筛选细胞外蛋白质差异表达基因(EP-DEG)。 技术路线 本研究技术路线如图1所示。 RRMS 患者的 Del-1 和 resolvinD1 水平升高,RRMS 患者的 IL17A 水平降低(图 8A-C)。 三种细胞外分子与临床指标的相关性分析显示,RRMS患者脑脊液中resolvinD1水平与Del-1呈正相关,而resolvinD1水平与蛋白质和IgA呈负相关(图8D-F)。 图 8 06 Del-1诊断疗效和生存分析 为了研究Del-1对RRMS诊断和预后的预测作用,本研究进行了ROC曲线和生存分析。

    1.1K30编辑于 2022-12-14
  • 星球--入门DAY1

    R语言R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 GEO数据库GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。 它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。关键是这个数据是免费的! 这些数据包括基于单通道和双通道微阵列的实验,检测mRNA,基因组DNA和蛋白质丰度,以及非阵列技术,如基因表达系列分析(SAGE),质谱蛋白质组学数据和高通量测序数据。 前三个(样本,平台和系列)由用户提供; 第四,数据集由GEO工作人员根据用户提交的数据进行编译和策划。(暂时实在写不出什么代码 纯粹的freshman)

    36410编辑于 2024-01-17
领券