首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏R语言 / Linux

    GEO数据挖掘-2

    GEO数据挖掘2 四、代码分析流程 1. 下载数据并从中提取有用信息 gse_number = "GSE56649" eSet <- getGEO(gse_number, destdir = '. (1)提取表达矩阵exp exp <- exprs(eSet) dim(exp) exp[1:4,1:4] 关于表达矩阵里的负值 取过log,有负值 —— 正常 没取过log,有负值 ——错误<em>数据</em> show_colnames =F, show_rownames = F, annotation_col=annotation_col ) 差异分析后的<em>数据</em>整理 (目的是得到一个10列的<em>数据</em>框) rm(list = ls()) load(file = "step<em>2</em>output.Rdata") #差异分析,用limma包来做 #需要表达矩阵和Group,不需要改 number = Inf) #为deg<em>数据</em>框添加几列 #1.加probe_id列,把行名变成一列 library(dplyr) deg <- mutate(deg,probe_id=rownames(deg

    1.1K01编辑于 2023-03-18
  • 来自专栏火星娃统计

    geo数据挖掘-2

    geo数据挖掘-2 sunqi 2020/7/11 1.概述 对下载的数据进行处理,提取表达矩阵,并匹配探针信息,基因名 教程来自:https://github.com/jmzeng1314/GEO/ 2.数据下载 2.1 获得表达数据‘ rm(list=ls()) # 设置默认转换因子为否 options(stringsAsFactors = F) # 目标文件 f='GSE42872_eSet.Rdata # 查看数据类型为list class(gset) ## [1] "list" #长度 length(gset) ## [1] 1 # 因为只有一个平台,所以只有1个列表元素 class(gset[[ colnames(Table(gpl)) head(Table(gpl)[,c(1,12)]) probe2gene=Table(gpl)[,c(1,12)] head(probe2gene ) save(probe2gene,file='probe2gene.Rdata') } # 获得平台的所有探针 load(file='probe2gene.Rdata') # 需要的时候通过

    1.5K21发布于 2020-09-15
  • Python数据挖掘编程基础2

    2.数据结构2.1Python中有4个内置的数据结构:List(列表)、Tuple(元组)、Dictionary(字典)和Set(集合),可以统称为容器(container),而这4个内置数据结构实际上是一些 简而言之,容器里的数据结构可以是任意的,且容器内部的元素类型不需要相同。<1>列表或元组a.列表和元组都是序列结构,两者都相似,但又有一些不同的地方。 因为容器的数据结构可以是任意类型,所以如下关于列表p的定义也是成立的。 一些常见的与列表或元组相关的函数如表2-1所示。此外,列表作为对象,自带了很多实用的方法(元组不允许被修改,因此方法很少),如表2-2所示。此外,列表还有"列表解析"这一功能。 代码清单2-3 使用append()方法对列表元素进行操作c=[1,2,3]d=[]for i in c:d.append(i+1)print(d)//输出结果为[2,3,4]将代码清单2-3使用列表解析进行简化

    15710编辑于 2025-05-09
  • 来自专栏cloudskyme

    跟我一起数据挖掘(19)——什么是数据挖掘2

    2、聚类 聚类:将数据对象划分为若干类,同一类的对象具有较高的相似度,不同类的对象相似度较低。从这个简单的描述中,可以看出聚类的关键是如何度量对象间的相似性。 在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中。 并将这些目的与数据挖掘的定义以及结果结合起来。 2: data understanding: 数据的理解以及收集,对可用的数据进行评估。 (数据挖掘报告)。 ? 总结 以上分别介绍了数据仓库和数据立方体,并且介绍了数据挖掘要解决的四大类问题,任何跟数据挖掘相关的问题都可以先归类到这四大类问题中,然后再根据相应的算法进行解决。

    1.4K50发布于 2018-03-20
  • 来自专栏韩曙亮的移动开发专栏

    数据挖掘数据挖掘总结 ( 数据挖掘相关概念 ) ★★

    用于挖掘的数数据源 必须 真实 : ① 存在的真实数据 : 数据挖掘处理的数据一般是存在的真实数据 , 不是专门收集的数据 ; ② 数据收集 : 该工作不属于数据挖掘范畴 , 属于统计任务 ; 2 . , 如金融领域数据挖掘结果 , 只能在金融领域及相关领域使用 ; 参考博客 : 【数据挖掘数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 ) 二、 数据挖掘组件化思想 模型或模式结构 : 通过 数据挖掘过程 得到知识 ; 是算法的输出格式 , 使用 模型 / 模式 将其表达出来, 如 : 线性回归模型 , 层次聚类模型 , 频繁序列模式 等 ; 2 . \rm D , 1 项集 \rm C_1 , 2 项集 \rm C_2 , \cdots , \rm k 项集 \rm C_k , 这些项集都是候选项集 , 根据 原始数据集 \rm L_1 , 创造 2 项集 \rm C_2 , 然后对 \rm C_2 执行 数据集扫描函数 , 找到其中的 频繁 2 项集 \rm L_2 , \vdots 根据 频繁

    5.3K00编辑于 2023-03-28
  • 来自专栏数据科学与人工智能

    数据挖掘】图数据挖掘

    那么图数据挖掘是干什么的呢?难道是开着挖掘机来进行挖掘?还是扛着锄头?下面讲讲什么是图数据挖掘。 一、什么是图数据挖掘 这个话题感觉比较沉重,以至于我敲打每个字都要犹豫半天,这里我说说我对图数据挖掘的理解。数据是一个不可数名字,那么说明数据是一个没有边界的东西。 那么不难理解,数据挖掘就是挖掘数据里面的“宝贝”,图数据挖掘,就是以图的结构来存储、展示、思考数据,以达到挖掘出其中的“宝贝”。那这个“宝贝”是什么? 这就是我认为的图数据挖掘。 从学术上讲,图数据挖掘分为数据图,模式图两种。至于这两个类型的区别,由于很久没有关注这块,所以只能给出一个字面意义上的区别。 2、Bidirectional Expansion For Keyword Search on Graph Databases 这个算法则是在第一个基础上面进行了扩展,支持双向搜索。

    3.3K81发布于 2018-02-27
  • 来自专栏韩曙亮的移动开发专栏

    数据挖掘数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★

    文章目录 一、 贝叶斯分类器分类的流程 二、 拉普拉斯修正 三、 贝叶斯分类器示例2 参考博客 : 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 ) 【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 ) 【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 ) 【数据挖掘】朴素贝叶斯分类器 ( 多属性概率计算 | 朴素贝叶斯分类案例分析 ) 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 ) 【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 ) 一、 贝叶斯分类器分类的流程 ---- 已知条件 : 已知样本 }{11} 注意是所有的分量的概率都要进行拉普拉斯修正 , 不能只修正这一个 ; 具体的详细的公式以及理论查看 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 |

    62400编辑于 2023-03-28
  • 来自专栏PPV课数据科学社区

    数据挖掘系列(2)--关联规则FpGrowth算法

    上一篇数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现 FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。 Step 2:再次扫描数据记录,对每条记录中出现在Step 1产生的表中的项,按表中的顺序排序。 构造好条件树后,对条件树进行递归挖掘,当条件树只有一条路径时,路径的所有组合即为条件频繁集,假设{啤酒}的条件频繁集为{S1,S2,S3},则{啤酒}的频繁集为{S1+{啤酒},S2+{啤酒},S3+{ 2)接下来找header表头的倒数第二个项{尿布}的频繁集,同上可以得到{尿布}的前缀路径为:{面包:1},{牛奶:1},{牛奶,面包:2},条件FpTree的数据集为: TID Items T1 {面包

    1.5K90发布于 2018-04-23
  • 来自专栏人生代码

    数据挖掘实践指南读书笔记2

    写在之前 本书涉及的源程序和数据都可以在以下网站中找到:http://guidetodatamining.com/ 这本书理论比较简单,书中错误较少,动手锻炼较多,如果每个代码都自己写出来,收获不少。 (ratings[band1] - avg)**2 dem2 += (ratings[band2] - avg)**2 return num / (sqrt(dem1) * sqrt (dem2)) 相似矩阵预测: ? & rating2 in that set of ratings: for (item2, rating2) in ratings.items(): ratings[item2] /= self.frequencies[item][item2] # test code for ComputeDeviations(self) #r = recommender

    42240发布于 2019-10-30
  • 来自专栏韩曙亮的移动开发专栏

    数据挖掘数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )

    数据挖掘 功能 II . 数据挖掘 结果判断 III . 数据挖掘 学习框架 IV . 数据挖掘 分类 I . 数据挖掘 功能 ---- 1 . 概念描述 ( Concept Description ) : 主要进行 表征 与 判断 操作 , 概括 , 总结 , 对比 数据的特征 ; 如 : 对产品分类 , 对真实世界进行描述 ; 2 . 数据挖掘 结果判断 ---- 数据挖掘结果判断 : 数据挖掘得出的 知识 / 模式 , 如何判断得出的结果是否有效 ; ① 客观判断方法 : 通过科学计算进行判断是否正确 , 该计算基于 模式 的t 统计和结构 数据挖掘 学习框架 ---- 1 . 数据挖掘技术 ( 重点 ) : 聚类分析 , 异常检测 , 分类 , 关联规则分析 , 序列模式分析 , 数据方体与数据仓库 ; 2 . : 时间数据 , 空间数据 , 文本数据 , 音视频多媒体数据 , WEB 数据 等类型的数据挖掘 ; 2 .

    1.6K20编辑于 2023-03-27
  • 来自专栏韩曙亮的移动开发专栏

    数据挖掘数据挖掘总结 ( 数据挖掘特点 | 数据挖掘组件化思想 | 决策树模型 ) ★

    文章目录 一、 数据挖掘特点 二、 数据挖掘组件化思想 三、 决策树模型 1、 决策树模型创建 2、 树根属性选择 一、 数据挖掘特点 ---- 1 . 用于挖掘的数数据源 必须 真实 : ① 存在的真实数据 : 数据挖掘处理的数据一般是存在的真实数据 , 不是专门收集的数据 ; ② 数据收集 : 该工作不属于数据挖掘范畴 , 属于统计任务 ; 2 . 模型或模式结构 : 通过 数据挖掘过程 得到知识 ; 是算法的输出格式 , 使用 模型 / 模式 将其表达出来, 如 : 线性回归模型 , 层次聚类模型 , 频繁序列模式 等 ; 2 . : 所有的属性都已经分配完毕 , 决策树的高度等于属性个数 ; ③ 所有样本分类完毕 ( 样本用完了 ) : 所有的样本数据集都分类完成 ; 2、 树根属性选择 1 . 属性选择方法 : 树根属性选择的方法很多 , 这里介绍一种常用的方法 , 信息增益 ; 2 . 信息增益 : 信息增益 效果越大 , 其作为树根属性 , 划分的数据集分类效果越明显 ; 3 .

    1.4K00编辑于 2023-03-28
  • 来自专栏数据科学与人工智能

    数据挖掘数据挖掘#商业智能(BI)数据分析挖掘概念

    数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结,希望你喜欢。 大数据(Big Data): 大数据既是一个被滥用的流行语,也是一个当今社会的真实趋势。此术语指代总量与日俱增的数据,这些数据每天都在被捕获、处理、汇集、储存、分析。 机器学习(Machine Learning): 一个学科,研究从数据中自动学习,以便计算机能根据它们收到的反馈调整自身运行。与人工智能、数据挖掘、统计方法关系密切。 文本挖掘(Text Mining): 对包含自然语言的数据的分析。对源数据中词语和短语进行统计计算,以便用数学术语表达文本结构,之后用传统数据挖掘技术分析文本结构。 网络挖掘/网络数据挖掘(Web Mining / Web Data Mining) : 使用数据挖掘技术从互联网站点、文档或服务中自动发现和提取信息。

    3.2K90发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据挖掘】大数据知识之数据挖掘

    从市场需求及应用的角度来看,通过对大数据的存储、挖掘和分析,大数据在管理、营销、数据标准化等领域大有可为,促使管理/服务水平提升、营销方式改进等。下面我们就来讲讲数据挖掘的那些事。 2聚类分析和模式识别 聚类分析主要是根据事物的特征对其进行聚类或分类,即所谓物以类聚,以期从中发现规律和典型模式。这类技术是数据挖掘的最重要的技术之一。 数据挖掘通常会涉及较复杂的数学方法和信息技术,为了方便用户理解和使用这类技术,必须借助图形、图象、动画等手段形象地指导操作、引导挖掘和表达结果等,否则很难推广普及数据挖掘技术。 实施步骤 1理解业务 从政府/企业的角度理解项目目标和需求,将其转换成一种数据挖掘的问题定义,设计出达到目标的一个初步计划。 2理解数据 收集初步的数据,进行各种熟悉数据的活动。 至于数据挖掘的未来,让我们拭目以待。

    2K90发布于 2018-02-26
  • 来自专栏数据科学与人工智能

    数据挖掘】系统地学习数据挖掘

    ●什么是数据挖掘? ●怎么培养数据分析的能力? ●如何成为一名数据科学家? 磨刀不误砍柴工。在学习数据挖掘之前应该明白几点: ●数据挖掘目前在中国的尚未流行开,犹如屠龙之技。 ●数据初期的准备通常占整个数据挖掘项目工作量的70%左右。 ●数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术。 ●2数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。 ●3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。 (2).数据挖掘工程师 ●需要理解主流机器学习算法的原理和应用。 ●需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。 ●需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。

    1.6K50发布于 2018-02-27
  • 来自专栏DJ生信学习笔记

    生信技能树-数据挖掘Day2

    Day2主要内容:向量一、向量生成二、单个向量操作三、两个向量操作四、向量筛选(取子集)图片图片图片图片图片图片1、比较运算 2、数学计算 3、连接图片循环补齐发生的条件:等位运算;两个向量长度不相等图片图片图片图片图片

    18600编辑于 2023-08-08
  • 来自专栏机器学习AI算法工程

    【趣味】数据挖掘(2)——烤鸭 面饼之朴素关联

    在”数据挖掘(1)——‘被打’与‘北大’的关联“中借有趣的实例介绍了关联规则的三度 (支持度、置信度,兴趣度)概念。 2 来自管理层的需求 设想某理想小型超市, 采用mini版超市销售系统, 管理了6种商品,记录了5个顾客的购物单(数据量如此之小,是为了简单地说明思想)。 ? 要求挖掘出支持度 不小于 2/5(即至少同时被买两次)的商品间的关联。 下面先介绍朴素而费时的笨方法,后介绍聪明一些的方法。 记录总数记为N,N=5; 商品总数记为M,M=6。 6 朴素方法太笨,数据量稍大就不可行 朴素方法关键就是“组合被选举对象--唱票--计票”, 容易理解,容易实现,在小规模数据上是可用的,例如,想挖掘一个民间药方中的较重要成分,如果一共10项, 但是,量变引起质变,当数据变得很大,此法就从可行变为不可行了 考察挖掘关联规则实际过程,易见过程分两大步: (a) 筛出高频集。

    90970发布于 2018-03-09
  • 来自专栏数据科学与人工智能

    数据挖掘】常用的数据挖掘方法

    数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程 利用数据挖掘进行数据分析常用的方法主要有分类 、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。 在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据 意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。 ⑦ Web页挖掘。 随着Internet的迅速发展及Web 的全球普及, 使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息

    3.2K60发布于 2018-02-27
  • 来自专栏用户7627119的专栏

    TCGA数据挖掘—肿瘤免疫浸润分析思路2

    上次给大家介绍了TCGA肿瘤样本根据免疫情况分析不同的免疫亚型(TCGA数据挖掘-肿瘤免疫浸润分析)。这一次给大家介绍肿瘤免疫浸润的另一种研究思路。 在上图中,T3期的样本免疫激活功能富集情况相比T1、T2整体偏低,T2期有部分样本免疫激活功能富集也偏低,这部分人群可能实际处于T2、T3的中间状态。 02 免疫细胞评分比较 根据转录组数据基因表达的情况,我们可以计算免疫相关细胞类型比例评分,然后比较不同临床分期的肿瘤病人的每种免疫细胞类型的分布差异(如下图)。 ? ? ? 如下图,HLA-DPA1基因能显著性区分T2期样本的生存预后。 ? T1期 ? T2期 ? T3期 06 重要免疫特征分布分组比较 最后,我们还可以分析不同分期病人的一些重要免疫特征的分布如M1:M2、Macrophages:Lymphocytes、Th1:Th2等等。 ? ?

    1.3K30发布于 2020-08-06
  • 来自专栏生信技能树学习笔记

    GEO数据挖掘2(分组+探针注释的获取)

    分组:看pd数据的表格 查看哪里可以看到分组依据某一列包含了单独分组信息,(一般只包含1~2个单词),直接提取图片Group = pd$`disease state:ch1` 在网页上or自己数有几个分组 Group=ifelse(str_detect(pd$source_name_ch1,"control"), "control", "RA") 把分组的数据类型变成因子型数据 .db)ls("package:hgu133plus2.db") #查看该R包里所有的数据and函数ids <- toTable(hgu133plus2SYMBOL)head(ids)2.从GPL网站提取探针注释在该 str\_detect(ids2$symbol,"///");table(k2) ##去掉对应多个基因名的探针id ids2 = ids2[ k1 & k2,]并不一定所有的探针注释中开放性探针都是" ",所以要看一下如图片这里我们可以取数据框子集查看里面的内容是什么ids2$[410,2] 3.探针平台的官网寻找4.自主注释(自学一下)#https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA

    2.6K31编辑于 2023-02-18
  • 来自专栏科研猫

    GEO数据挖掘2)--快速锁定目标数据

    在上一期的推文 GEO数据挖掘(1)--SCI文章速成 ,我们讲解了关于GEO数据库的背景知识,想必大家也了解了GEO是一个非常实用和权威的基因表达谱数据库。那么如何检索自己想要的数据呢? GEO中的数据千千万万条,能够准确筛选出符合我们研究方向的数据至关重要,是整个数据挖掘工作的核心和基础。如果没有合适的数据,后续的所有分析都是纸上谈兵。 2 Step2:过滤 点击上面的检索结果后,然后我们会进入到GEO DataSets的结果页面,如下图所示。 因为我们做的是数据挖掘的文章,这里面的“数据”就是我们的研究对象,如果不能选定足够大的样本量,我们在分析数据的过程中就会漏掉一些重要的信息,或者editor直接就会觉得你的文章意义不大。 当然仅仅进行差异表达分析,发文章是远远不够的,后面的文章,我们会继续给大家讲解GEO2R的使用以及我们自行开发的一整套GEO数据挖掘自动化工具,卖个关子,敬请期待哟~ 本期重点回顾(Take home

    5.3K86发布于 2019-09-24
领券