首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏火星娃统计

    GEO数据挖掘6

    GEO数据挖掘6 sunqi 2020/7/13 概述 使用SigDB(Molecular Signatures Database)基因集进行富集分析,包含8个系列 H: hallmark gene sets 校验基因集合,基于通路、文献等: C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分 C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合 Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分) C6: 相较于KEGG,SigDB数据集包含的功能更多 GSEA分析 对 MigDB中的全部基因集 做GSEA分析。 gseaplot(gsea_results[[2]],'FARMER_BREAST_CANCER_CLUSTER_6') ?

    91810发布于 2020-09-15
  • 来自专栏韩曙亮的移动开发专栏

    数据挖掘数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )

    数据挖掘 功能 II . 数据挖掘 结果判断 III . 数据挖掘 学习框架 IV . 数据挖掘 分类 I . 数据挖掘 功能 ---- 1 . 异常检测 ( Outlier Analysis ) : ① 异常值 ( Outlier ) : 不符合一般行为特点的数据 ; ② 异常值作用 : 该数据很重要 , 用于罕见事件分析 , 欺诈检测 ; 6 数据挖掘 结果判断 ---- 数据挖掘结果判断 : 数据挖掘得出的 知识 / 模式 , 如何判断得出的结果是否有效 ; ① 客观判断方法 : 通过科学计算进行判断是否正确 , 该计算基于 模式 的t 统计和结构 数据挖掘 学习框架 ---- 1 . 数据挖掘技术 ( 重点 ) : 聚类分析 , 异常检测 , 分类 , 关联规则分析 , 序列模式分析 , 数据方体与数据仓库 ; 2 . 数据挖掘应用 : CRM , 搜索分析 , 网络安全 , 生物信息分析 … IV . 数据挖掘 分类 ---- 1 .

    1.6K20编辑于 2023-03-27
  • Python数据挖掘编程基础6

    3、假设有一个列表a=[5,6,7],需要将列表a中的每个元素都加3,并生成一个新列表,可以通过列表解析操作实现该要求,如代码清单2-15所示。 代码清单2-15 使用列表解析操作列表元素a=[5,6,7]b=[i+3 for i in a]print(b) //输出结果为[8,9,10]4、使用map函数实现代码清单2-15中的示例,如代码清单 代码清单2-16 使用map函数操作列表元素a[5,6,7]b=map(lambda x:x+3,a)b=list(b)print(b) //输出结果也为[8,9,10]在代码清单2-16中,首先定义一个列表

    15610编辑于 2025-05-09
  • 来自专栏往期博文

    数据挖掘】任务6:DBSCAN聚类

    要求 编程实现DBSCAN对下列数据的聚类 数据获取:https://download.csdn.net/download/qq1198768105/85865302 导库与全局设置 from scipy.io ") sizes5数据 # 导入数据 colors = ['blue', 'green', 'red', 'black', 'yellow'] sizes5 = loadmat('data-密度聚类/ ") square1数据 # 导入数据 colors = ['green', 'red', 'blue', 'black'] square1 = loadmat('data-密度聚类/square1. ") square4数据 # 导入数据 colors = ['blue', 'green', 'red', 'black', 'yellow', 'brown', 'orange' ") 总结 上述实验证明了DBSCAN聚类方法比较依赖数据点位置上的关联度,对于smile、spiral等分布的数据聚类效果较好。

    64310编辑于 2022-09-01
  • 来自专栏人生代码

    数据挖掘实践指南读书笔记6

    写在之前 本书涉及的源程序和数据都可以在以下网站中找到: http://guidetodatamining.com/ 这本书理论比较简单,书中错误较少,动手锻炼较多,如果每个代码都自己写出来,收获不少。

    42110发布于 2019-11-05
  • 来自专栏Python小课堂

    6个步骤教你金融数据挖掘预处理

    数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。下面就一起看下常用六大步完成数据预处理。 ​ train_test_split( X , Y , test_size = 0.2, random_state = 0) Step 6数据变换[1]是将数据集的每个元素乘以常数 ;也就是说,将每个数 变换为 ,其中 , 和 都是实数。 数据变换将可能改变数据的分布以及数据点的位置。 它还生成了一个新的特征矩阵数据,该数据是由所有次数小于或等于指定次数的特征的多项式组合组成的。

    73930编辑于 2021-12-31
  • 来自专栏韩曙亮的移动开发专栏

    数据挖掘数据挖掘总结 ( 数据挖掘相关概念 ) ★★

    用于挖掘的数数据源 必须 真实 : ① 存在的真实数据 : 数据挖掘处理的数据一般是存在的真实数据 , 不是专门收集的数据 ; ② 数据收集 : 该工作不属于数据挖掘范畴 , 属于统计任务 ; 2 . 数据必须海量 : ① 少量数据处理 : 少量数据使用统计方法分析 , 不必使用数据挖掘 ; ② 海量数据 : 处理海量数据时 , 才使用数据挖掘 , 涉及到 有效存储 , 快速访问 , 合理表示 等方面的问题 未知结果 : ① 挖掘结果 : 数据挖掘 挖掘出的知识是未知的 , 目的是为了发掘潜在的知识 , 模式 ; 这些知识只能在特定环境下可以接收 , 可以理解 , 可以运用 ; ② 知识使用 : 数据挖掘出的知识只能在特定领域使用 , 如金融领域数据挖掘结果 , 只能在金融领域及相关领域使用 ; 参考博客 : 【数据挖掘数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 ) 二、 数据挖掘组件化思想 数据挖掘任务分类 : 根据数据挖掘的目标 , 可以将数据挖掘任务分为以下几类 : ① 模式挖掘 , ② 描述建模 , ③ 预测建模 ; 描述建模 和 预测建模 又称为 模型挖掘 ; ① 模式挖掘 : 如

    5.3K00编辑于 2023-03-28
  • 来自专栏用户7627119的专栏

    公开数据单细胞挖掘6+分思路

    20个TCGA bulk RNA-Seq数据集中的免疫功能相关基因,使用了无监督聚类区分出主要的免疫功能类型。 Immune Checkpoint Therapies 实体瘤中癌症特异性免疫预后特征及其与免疫检查点治疗的关系 http://mpvideo.qpic.cn/0bf2n4bvuaad3mahbugq6vpvg36dljxqgwqa.f10002 作者在GEO数据集中获得了五种肿瘤类型(黑色素瘤GSE72056,乳腺癌GSE75688,胶质瘤GSE84465,头颈癌GSE103322和结直肠癌GSE81861)的scRNA-Seq数据,使用了Seurat 对乳腺癌,胶质母细胞瘤,头颈癌和结直肠癌scRNA-Seq数据分析和细胞类型注释也是类似的(补充图1)。 接下来,作者在独立的患者队列中验证了模型,使用相同的公式计算了GBM患者在Repository of Molecular Brain Neoplasia Data (Rembrandt)(一个大型公共脑瘤数据数据

    71230编辑于 2022-09-21
  • 来自专栏PPV课数据科学社区

    数据挖掘系列(6)决策树分类算法

    分类是数据挖掘中一个重要的分支,在各方面都有着广泛的应用,如医学疾病判别、垃圾邮件过滤、垃圾短信拦截、客户分析等等。 在第6步中,对应构建多叉决策树时,离散的属性在结点N及其子树中只用一次,用过之后就从可用属性列表中删掉。 比如我们将一个立方体A抛向空中,记落地时着地的面为f1,f1的取值为{1,2,3,4,5,6},f1的熵entropy(f1)=-(1/6*log(1/6)+...+1/6*log(1/6))=-1*log 来源:www.cnblogs.com/fengfenggirl 全系列: 数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法 数据挖掘系列(2)--关联规则FpGrowth算法 数据挖掘系列 (3)--关联规则评价 数据挖掘系列(4)使用weka做关联规则挖掘 数据挖掘系列(5)使用mahout做海量数据关联规则挖掘

    1.9K40发布于 2018-04-23
  • 来自专栏数据科学与人工智能

    数据挖掘】图数据挖掘

    那么图数据挖掘是干什么的呢?难道是开着挖掘机来进行挖掘?还是扛着锄头?下面讲讲什么是图数据挖掘。 一、什么是图数据挖掘 这个话题感觉比较沉重,以至于我敲打每个字都要犹豫半天,这里我说说我对图数据挖掘的理解。数据是一个不可数名字,那么说明数据是一个没有边界的东西。 那么不难理解,数据挖掘就是挖掘数据里面的“宝贝”,图数据挖掘,就是以图的结构来存储、展示、思考数据,以达到挖掘出其中的“宝贝”。那这个“宝贝”是什么? 那么对这个图进行关系挖掘,那么会产生很多有用的数据,比如可以推荐你可能认识的人,那就是朋友的朋友,甚至更深,这就形成了某空间好友推荐的功能。比如某宝的你可能喜欢的宝贝,可以通过图数据挖掘来实现。 这就是我认为的图数据挖掘。 从学术上讲,图数据挖掘分为数据图,模式图两种。至于这两个类型的区别,由于很久没有关注这块,所以只能给出一个字面意义上的区别。

    3.3K81发布于 2018-02-27
  • 来自专栏数据STUDIO

    6个步骤搞定金融数据挖掘预处理

    导读: 预处理是数据挖掘过程和机器学习的重要步骤。它被用来表示 "废料进,废品出"。在机器学习和数据挖掘中,数据采集方法往往控制松散,导致值超出范围、不可能的数据组合、缺失值等问题。 数据预处理一般包括数据清洗和数据变换,数据清洗包括缺失值、异常值处理,数据变换一般包括数据归一化、标准化、特征编码等等。 数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。 下面就一起看下常用六大步完成数据预处理。其中数据获取可以参考金融数据准备。 ? train_test_split( X , Y , test_size = 0.2, random_state = 0) Step 6数据变换将可能改变数据的分布以及数据点的位置。

    2K30发布于 2021-06-24
  • 来自专栏韩曙亮的移动开发专栏

    数据挖掘数据挖掘总结 ( 数据挖掘特点 | 数据挖掘组件化思想 | 决策树模型 ) ★

    文章目录 一、 数据挖掘特点 二、 数据挖掘组件化思想 三、 决策树模型 1、 决策树模型创建 2、 树根属性选择 一、 数据挖掘特点 ---- 1 . 用于挖掘的数数据源 必须 真实 : ① 存在的真实数据 : 数据挖掘处理的数据一般是存在的真实数据 , 不是专门收集的数据 ; ② 数据收集 : 该工作不属于数据挖掘范畴 , 属于统计任务 ; 2 . 数据必须海量 : ① 少量数据处理 : 少量数据使用统计方法分析 , 不必使用数据挖掘 ; ② 海量数据 : 处理海量数据时 , 才使用数据挖掘 , 涉及到 有效存储 , 快速访问 , 合理表示 等方面的问题 , 如金融领域数据挖掘结果 , 只能在金融领域及相关领域使用 ; 参考博客 : 【数据挖掘数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 ) 二、 数据挖掘组件化思想 数据挖掘任务分类 : 根据数据挖掘的目标 , 可以将数据挖掘任务分为以下几类 : ① 模式挖掘 , ② 描述建模 , ③ 预测建模 ; 描述建模 和 预测建模 又称为 模型挖掘 ; ① 模式挖掘 : 如

    1.4K00编辑于 2023-03-28
  • 来自专栏数据科学与人工智能

    数据挖掘数据挖掘#商业智能(BI)数据分析挖掘概念

    数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结,希望你喜欢。 大数据(Big Data): 大数据既是一个被滥用的流行语,也是一个当今社会的真实趋势。此术语指代总量与日俱增的数据,这些数据每天都在被捕获、处理、汇集、储存、分析。 机器学习(Machine Learning): 一个学科,研究从数据中自动学习,以便计算机能根据它们收到的反馈调整自身运行。与人工智能、数据挖掘、统计方法关系密切。 文本挖掘(Text Mining): 对包含自然语言的数据的分析。对源数据中词语和短语进行统计计算,以便用数学术语表达文本结构,之后用传统数据挖掘技术分析文本结构。 网络挖掘/网络数据挖掘(Web Mining / Web Data Mining) : 使用数据挖掘技术从互联网站点、文档或服务中自动发现和提取信息。

    3.2K90发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据挖掘】大数据知识之数据挖掘

    从市场需求及应用的角度来看,通过对大数据的存储、挖掘和分析,大数据在管理、营销、数据标准化等领域大有可为,促使管理/服务水平提升、营销方式改进等。下面我们就来讲讲数据挖掘的那些事。 它指的是在大型数据库或数据仓库中搜索和挖掘以往不知道的规则和规律,这大致包括以下几种形式:IF … THEN … 6可视化技术 可视化技术是数据挖掘不可忽视的辅助技术。 数据挖掘通常会涉及较复杂的数学方法和信息技术,为了方便用户理解和使用这类技术,必须借助图形、图象、动画等手段形象地指导操作、引导挖掘和表达结果等,否则很难推广普及数据挖掘技术。 6模型部署 创建完模型并不意味着项目的结束,即使模型的目的是为了增进对数据的了解,所获得的知识也要用一种用户可以使用的方式来组织和表示。通常要将活动模型应用到决策制订的过程中去。 至于数据挖掘的未来,让我们拭目以待。

    2K90发布于 2018-02-26
  • 来自专栏数据科学与人工智能

    数据挖掘】系统地学习数据挖掘

    ●什么是数据挖掘? ●怎么培养数据分析的能力? ●如何成为一名数据科学家? 磨刀不误砍柴工。在学习数据挖掘之前应该明白几点: ●数据挖掘目前在中国的尚未流行开,犹如屠龙之技。 ●数据初期的准备通常占整个数据挖掘项目工作量的70%左右。 ●数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术。 ●数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效) ●数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域。 ●数据挖掘项目通常需要重复一些毫无技术含量的工作。 ●经典图书推荐:《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 这其中他虽然不懂数据仓库,但是简单的Excel就足以胜任高打6万个样本的数据处理;他虽然不懂专业的展示展现技能,但是只要他自己看的懂就行了,这就无需什么展示展现;前面说过,统计技能是应该掌握的,这对一个人的迷你项目很重要

    1.6K50发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据挖掘】常用的数据挖掘方法

    数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程 利用数据挖掘进行数据分析常用的方法主要有分类 、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。 在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据 意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。 ⑦ Web页挖掘。 随着Internet的迅速发展及Web 的全球普及, 使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息

    3.2K60发布于 2018-02-27
  • 来自专栏全栈程序员必看

    数据挖掘——关联规则挖掘

    数据挖掘》国防科技大学 《数据挖掘》青岛大学 数据挖掘之关联规则挖掘 关联规则挖掘(Association Rule Mining)最早是由Agrawal等人提出。 形式化描述 • 关联规则挖掘的交易数据集记为D • D ={T1,T2,…,Tk,…,Tn},Tk(k=1,2,…,n)称为交易,每个交易有唯一的标识,记作TID。 基本概念 挖掘关联规则 在给定一个交易数据集D上,挖掘关联规则问题就是产生支持度和置信度分别大于等于用户给定的最小支持度阈值和最小置信度阈值的关联规则。 FP树是一种输入数据的压缩表示,它通过逐个读入事务,并把每个事务映射到FP树中的一条路径来构造。 构造FP树: 扫描数据库,得到频繁1-项集,并把项按支持度递减排序 再一次扫描数据库,建立FP-tree(遍历每一个事务,构造成一条路径,并给项计数) 生成条件模式: 从FP-tree的头表开始

    3.3K10编辑于 2022-09-09
  • 来自专栏数据科学与人工智能

    数据挖掘数据挖掘工作总结

    导读:很多人不明白学习数据挖掘以后干什么,这个问题也经常被问到。记得刚学数据挖掘的时候,有一个老师说学数据挖掘有什么用,你以后咋找工作。当时听了,觉得很诧异,不知道他为何有此一问。 数据挖掘在国外是一份很不错的工作。我喜欢数据挖掘,因为它很有趣。很高兴以后就从事这方面的工作啦。写论文之余,也考虑一下数据挖掘工程师的职业规划。 ? 以下是从网上找的一些相关资料介绍,和即将走上数据挖掘岗位或是想往这方面发展的朋友共享: 数据挖掘从业人员工作分析 1.数据挖掘从业人员的愿景: 数据挖掘就业的途径从我看来有以下几种,(注意:本文所说的数据挖掘不包括数据仓库或数据库管理员的角色 从这个方面切入数据挖掘领域的话你需要学习《数理统计》、《概率论》、《统计学习基础:数据挖掘、推理与预测》、《金融数据挖掘》,《业务建模与数据挖掘》、《数据挖掘实践 》等,当然也少不了你使用的工具的对应说明书了 ,如SPSS、SAS等厂商的《SAS数据挖掘与分析》、《数据挖掘Clementine应用实务》、《EXCEL 2007数据挖掘完全手册》等,如果多看一些如《数据挖掘原理》 等书籍那就更好了。

    1.8K60发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据挖掘数据挖掘 特异群组挖掘的框架与应用

    2.1 与聚类的比较 聚类是根据最大化簇内相似性、最小化簇间相似性的原则,将数据对象集合划分成若干个簇的过程[6]。 定义6(τ-特异群组挖掘)特异群组挖掘问题是找到数据集中所有的特异群组,满足特异群组集合的紧致度最大,且=τ,其中τ(τ≥2)是一个给定阈值。 图6是特异群组挖掘算法在上海市宝山公安分局关于跟车行为检测中的应用展示,通过挖掘可以得到在多天共同出现在多个监控点的异常车辆群组(考虑到隐私,图6中的车牌数据也进行了一定的脱敏处理)。 ? 在大规模的社会网络中挖掘小社区群体属于特异群组挖掘问题。 (6)论文抄袭检测 大多数论文都是不相同的,但是仍然存在一些抄袭的论文。 通过对特异群组挖掘与利用,减少欺诈行为,提高监管力度,提升公共安全管理和应急响应能力,帮助政府节省开支。 6、 结束语 特异群组挖掘是大数据的一个重要任务。

    2.1K100发布于 2018-02-27
  • 来自专栏ellipse数据库技术

    数据挖掘

    数据挖掘——就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。   ①分类。 在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据 意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。   ⑦Web页挖掘。 随着Internet的迅速发展及Web 的全球普及, 使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息

    1.1K20发布于 2019-09-12
领券