首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏火星娃统计

    GEO数据挖掘6

    GEO数据挖掘6 sunqi 2020/7/13 概述 使用SigDB(Molecular Signatures Database)基因集进行富集分析,包含8个系列 H: hallmark gene sets 校验基因集合,基于通路、文献等: C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分 C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合 Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分) C6: 相较于KEGG,SigDB数据集包含的功能更多 GSEA分析 对 MigDB中的全部基因集 做GSEA分析。 gseaplot(gsea_results[[2]],'FARMER_BREAST_CANCER_CLUSTER_6') ?

    91810发布于 2020-09-15
  • 来自专栏韩曙亮的移动开发专栏

    数据挖掘数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )

    数据挖掘 功能 II . 数据挖掘 结果判断 III . 数据挖掘 学习框架 IV . 数据挖掘 分类 I . 数据挖掘 功能 ---- 1 . 异常检测 ( Outlier Analysis ) : ① 异常值 ( Outlier ) : 不符合一般行为特点的数据 ; ② 异常值作用 : 该数据很重要 , 用于罕见事件分析 , 欺诈检测 ; 6 数据挖掘 结果判断 ---- 数据挖掘结果判断 : 数据挖掘得出的 知识 / 模式 , 如何判断得出的结果是否有效 ; ① 客观判断方法 : 通过科学计算进行判断是否正确 , 该计算基于 模式 的t 统计和结构 数据挖掘 学习框架 ---- 1 . 数据挖掘技术 ( 重点 ) : 聚类分析 , 异常检测 , 分类 , 关联规则分析 , 序列模式分析 , 数据方体与数据仓库 ; 2 . 数据挖掘应用 : CRM , 搜索分析 , 网络安全 , 生物信息分析 … IV . 数据挖掘 分类 ---- 1 .

    1.6K20编辑于 2023-03-27
  • 数据挖掘企业服务平台典型合作案例都有哪些

    数据挖掘企业服务平台典型合作案例1. 中国电科院:电力大数据分析平台电力大数据平台拥有数据采集、数据存储、数据加工处理、数据分析挖掘数据管控、平台管控、安装部署等功能,但是平台在组件融合、权限控制、对外接口封装等方面还存在不足, 不能够满足企业未来不同类型的大数据应用 运用大数据挖掘算法完善数据分析挖掘模块,实现对 Mahout、Rhadoop 等分析挖掘工具中的算法封装,通过企业数据挖掘应用流程化的模式,使得数据应用开发速度更快,成本更低, 让企业数据挖掘应用更简单 6 . 泰迪大数据挖掘企业服务平台是一款通用的、企业级、智能化的数据分析模型构建与数据应用场景设计工具,能够一体化地完成数据集成、模型构建、模型发布,为数据分析、探索、服务流程提供支撑,提供完整的数据探索、多数据源接入

    71010编辑于 2024-06-26
  • Python数据挖掘编程基础6

    3、假设有一个列表a=[5,6,7],需要将列表a中的每个元素都加3,并生成一个新列表,可以通过列表解析操作实现该要求,如代码清单2-15所示。 代码清单2-15 使用列表解析操作列表元素a=[5,6,7]b=[i+3 for i in a]print(b) //输出结果为[8,9,10]4、使用map函数实现代码清单2-15中的示例,如代码清单 代码清单2-16 使用map函数操作列表元素a[5,6,7]b=map(lambda x:x+3,a)b=list(b)print(b) //输出结果也为[8,9,10]在代码清单2-16中,首先定义一个列表

    15710编辑于 2025-05-09
  • 企业为什么需要数据挖掘平台?哪个比较好用呢?

    数据挖掘平台功能:助力企业数据挖掘 1、数据抓取 挖掘平台企业挖掘数据的重要工具。 4、机器学习 数据挖掘平台还具备机器学习,可以自动识别和分析数据,发现其中的规律和模式,提供预测模型,帮助企业做出更准确的商业决策。 5、数据挖掘平台可以应用于多个应用场景 数据挖掘平台广泛应用于企业的各个领域,如市场营销、风险管理、人力资源管理、医疗健康等,可实现精准营销、风险分析、员工管理、疾病诊断等。 数据挖掘平台不仅适用于大企业也适用于普通人 企业:分布式云计算,线性扩展,保证性能,与BI平台无缝整合,一键发布挖掘模型,模型库提高知识复用,减少重复投入,支持跨库查询,统一控制数据访问权限,训练自动化 泰迪智能科技企业数据挖掘平台由泰迪智能科技自主研发,面向企业级用户的大数据挖掘建模平台

    94310编辑于 2024-06-20
  • 来自专栏数据STUDIO

    一个企业数据挖掘实战项目|教育数据挖掘

    自从分享了一篇能够写在简历里的企业数据挖掘实战项目,深受读者朋友们青睐,许多读者私信云朵君,希望多一些类似的数据挖掘实际案例。这就来了。 本项目旨在探讨影响学生学业表现的人口统计学和家庭特征。 了解更多:Python数据分析之数据探索分析(EDA) 从数据集特点来看,13个字段可以分为四大类。 不平衡数据集处理方法 从上一步的探索性数据分析结果,本次学生成绩数据集为不平衡数据集,那么处理不平衡数据集处理方法都有哪些呢。这里可以参考云朵君之前的一篇机器学习中样本不平衡,怎么办? 数据重采样 这里主要介绍下数据预处理层面的数据重采样方法。数据重采样主要分为上采样和下采样。 本文后续工作可以是通过正文中得到的结果,选择几个合适的模型,通过适当的模型调参方法选择恰当的参数,以确定本次数据挖掘的最终模型。

    2.3K31发布于 2021-09-26
  • 来自专栏往期博文

    数据挖掘】任务6:DBSCAN聚类

    要求 编程实现DBSCAN对下列数据的聚类 数据获取:https://download.csdn.net/download/qq1198768105/85865302 导库与全局设置 from scipy.io ") sizes5数据 # 导入数据 colors = ['blue', 'green', 'red', 'black', 'yellow'] sizes5 = loadmat('data-密度聚类/ ") square1数据 # 导入数据 colors = ['green', 'red', 'blue', 'black'] square1 = loadmat('data-密度聚类/square1. ") square4数据 # 导入数据 colors = ['blue', 'green', 'red', 'black', 'yellow', 'brown', 'orange' ") 总结 上述实验证明了DBSCAN聚类方法比较依赖数据点位置上的关联度,对于smile、spiral等分布的数据聚类效果较好。

    64310编辑于 2022-09-01
  • 来自专栏人生代码

    数据挖掘实践指南读书笔记6

    写在之前 本书涉及的源程序和数据都可以在以下网站中找到: http://guidetodatamining.com/ 这本书理论比较简单,书中错误较少,动手锻炼较多,如果每个代码都自己写出来,收获不少。

    42110发布于 2019-11-05
  • 来自专栏CDA数据分析师

    成为“大数据企业”,献给不懂数据挖掘的你!

    在这种策略下,大规模多源异构数据的采集、清洗和整合方法,将成为大数据管理的核心支撑。 如何挖掘企业数据的价值 企业数据的价值开发高度依赖于深度数据分析能力。 对于这一平台所积累的大量数据的价值开发,首先体现在对其信息内容的提炼上。 平台上与工作相关的博文内容,如客服案例、经验分享等,经自动筛选分类、主题识别、关键词索引之后,被构建成企业知识库,为业务及管理工作提供快速有效的知识支撑,同时成为员工培训和自学的有力工具。 通过对这些关系结构的深度分析和挖掘,G公司获得了对员工及团队的影响力、凝聚力、创造力的更为准确而深入的评估手段。 例如,当G公司试图整合博客平台、业务系统、人力资源系统中的数据以全方位分析员工、团队特质以及绩效信息时,大量的数据属性之间所构成的复杂潜在关联网络,就需要强有力的关联发现技术来加以处理。

    1.1K60发布于 2018-02-11
  • 来自专栏灯塔大数据

    成为“大数据企业”,献给不懂数据挖掘的你

    在这种策略下,大规模多源异构数据的采集、清洗和整合方法,将成为大数据管理的核心支撑。 如何挖掘企业数据的价值 企业数据的价值开发高度依赖于深度数据分析能力。 对于这一平台所积累的大量数据的价值开发,首先体现在对其信息内容的提炼上。 平台上与工作相关的博文内容,如客服案例、经验分享等,经自动筛选分类、主题识别、关键词索引之后,被构建成企业知识库,为业务及管理工作提供快速有效的知识支撑,同时成为员工培训和自学的有力工具。 通过对这些关系结构的深度分析和挖掘,G公司获得了对员工及团队的影响力、凝聚力、创造力的更为准确而深入的评估手段。 例如,当G公司试图整合博客平台、业务系统、人力资源系统中的数据以全方位分析员工、团队特质以及绩效信息时,大量的数据属性之间所构成的复杂潜在关联网络,就需要强有力的关联发现技术来加以处理。

    75170发布于 2018-04-04
  • 来自专栏搜狗测试

    软件品质评测系统- 数据挖掘处理平台

    软件品质评测体系建立之后,在进行评测之前首先要确定评测使用的数据,这就需要数据挖掘平台发挥作用了,本文将以输入法评测语料制作为例介绍我们的评测数据挖掘处理平台。 1 数据挖掘处理原则 全面性 使用场景 依照不同用户需要的打字环境的差别,结合当前使用频率较高的几种应用,尽可能全面地覆盖用户使用的打字场景,主要分为以下两个类别: 聊天场景:用户聊天的打字内容,例如 因此我们在挖掘用户打字行为时,除了满足普通打字需求的同时也设计了多种用户可能的行为,包括联想、组词、纠错、退格等。 清洗前的数据: ? 清洗后的数据: ? 数据分词 经过清洗后的数据,仍然是以大段的文章形式存储的,还不能直接拿来使用,需要使用特定的工具对其进行分词处理。 expect_cand": ""} //表示退格 {"pinyin": "#", "expect_cand": ""} //表示换行 ], "键盘类型":26 } 4结语 评测数据挖掘不是一成不变的

    93020发布于 2020-07-16
  • 来自专栏Python小课堂

    6个步骤教你金融数据挖掘预处理

    数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。下面就一起看下常用六大步完成数据预处理。 ​ train_test_split( X , Y , test_size = 0.2, random_state = 0) Step 6数据变换[1]是将数据集的每个元素乘以常数 ;也就是说,将每个数 变换为 ,其中 , 和 都是实数。 数据变换将可能改变数据的分布以及数据点的位置。 它还生成了一个新的特征矩阵数据,该数据是由所有次数小于或等于指定次数的特征的多项式组合组成的。

    73930编辑于 2021-12-31
  • 来自专栏韩曙亮的移动开发专栏

    数据挖掘数据挖掘总结 ( 数据挖掘相关概念 ) ★★

    用于挖掘的数数据源 必须 真实 : ① 存在的真实数据 : 数据挖掘处理的数据一般是存在的真实数据 , 不是专门收集的数据 ; ② 数据收集 : 该工作不属于数据挖掘范畴 , 属于统计任务 ; 2 . 数据必须海量 : ① 少量数据处理 : 少量数据使用统计方法分析 , 不必使用数据挖掘 ; ② 海量数据 : 处理海量数据时 , 才使用数据挖掘 , 涉及到 有效存储 , 快速访问 , 合理表示 等方面的问题 未知结果 : ① 挖掘结果 : 数据挖掘 挖掘出的知识是未知的 , 目的是为了发掘潜在的知识 , 模式 ; 这些知识只能在特定环境下可以接收 , 可以理解 , 可以运用 ; ② 知识使用 : 数据挖掘出的知识只能在特定领域使用 , 如金融领域数据挖掘结果 , 只能在金融领域及相关领域使用 ; 参考博客 : 【数据挖掘数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 ) 二、 数据挖掘组件化思想 数据挖掘任务分类 : 根据数据挖掘的目标 , 可以将数据挖掘任务分为以下几类 : ① 模式挖掘 , ② 描述建模 , ③ 预测建模 ; 描述建模 和 预测建模 又称为 模型挖掘 ; ① 模式挖掘 : 如

    5.3K00编辑于 2023-03-28
  • 来自专栏用户7627119的专栏

    公开数据单细胞挖掘6+分思路

    20个TCGA bulk RNA-Seq数据集中的免疫功能相关基因,使用了无监督聚类区分出主要的免疫功能类型。 Immune Checkpoint Therapies 实体瘤中癌症特异性免疫预后特征及其与免疫检查点治疗的关系 http://mpvideo.qpic.cn/0bf2n4bvuaad3mahbugq6vpvg36dljxqgwqa.f10002 作者在GEO数据集中获得了五种肿瘤类型(黑色素瘤GSE72056,乳腺癌GSE75688,胶质瘤GSE84465,头颈癌GSE103322和结直肠癌GSE81861)的scRNA-Seq数据,使用了Seurat 对乳腺癌,胶质母细胞瘤,头颈癌和结直肠癌scRNA-Seq数据分析和细胞类型注释也是类似的(补充图1)。 接下来,作者在独立的患者队列中验证了模型,使用相同的公式计算了GBM患者在Repository of Molecular Brain Neoplasia Data (Rembrandt)(一个大型公共脑瘤数据数据

    71430编辑于 2022-09-21
  • 来自专栏PPV课数据科学社区

    数据挖掘系列(6)决策树分类算法

    分类是数据挖掘中一个重要的分支,在各方面都有着广泛的应用,如医学疾病判别、垃圾邮件过滤、垃圾短信拦截、客户分析等等。 在第6步中,对应构建多叉决策树时,离散的属性在结点N及其子树中只用一次,用过之后就从可用属性列表中删掉。 比如我们将一个立方体A抛向空中,记落地时着地的面为f1,f1的取值为{1,2,3,4,5,6},f1的熵entropy(f1)=-(1/6*log(1/6)+...+1/6*log(1/6))=-1*log 来源:www.cnblogs.com/fengfenggirl 全系列: 数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法 数据挖掘系列(2)--关联规则FpGrowth算法 数据挖掘系列 (3)--关联规则评价 数据挖掘系列(4)使用weka做关联规则挖掘 数据挖掘系列(5)使用mahout做海量数据关联规则挖掘

    1.9K40发布于 2018-04-23
  • 来自专栏CDA数据分析师

    测试:你是否具备企业数据挖掘能力?

    1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题? A. 关联规则发现 B. 聚类 C. 分类 D. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务? A. 探索性数据分析 B. 建模描述 C. 寻找模式和规则 7.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务? A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 关于基本数据的元数据是指: A.基本元数据数据源,数据仓库,数据集市和应用程序等结构相关的信息; B.基本元数据包括与企业相关的管理方面的数据和信息; C.基本元数据包括日志文件和简历执行处理的时序调度信息 ,且没有固定的模式 答案在此: 1-5 A A C B A 6-10 A B C A D 11-15 B A D C C 16-20 D B C A B 21-25 D A A A B 26-30 D

    1.2K60发布于 2018-02-11
  • 来自专栏数据科学与人工智能

    数据挖掘】图数据挖掘

    那么图数据挖掘是干什么的呢?难道是开着挖掘机来进行挖掘?还是扛着锄头?下面讲讲什么是图数据挖掘。 一、什么是图数据挖掘 这个话题感觉比较沉重,以至于我敲打每个字都要犹豫半天,这里我说说我对图数据挖掘的理解。数据是一个不可数名字,那么说明数据是一个没有边界的东西。 那么不难理解,数据挖掘就是挖掘数据里面的“宝贝”,图数据挖掘,就是以图的结构来存储、展示、思考数据,以达到挖掘出其中的“宝贝”。那这个“宝贝”是什么? 那么对这个图进行关系挖掘,那么会产生很多有用的数据,比如可以推荐你可能认识的人,那就是朋友的朋友,甚至更深,这就形成了某空间好友推荐的功能。比如某宝的你可能喜欢的宝贝,可以通过图数据挖掘来实现。 这就是我认为的图数据挖掘。 从学术上讲,图数据挖掘分为数据图,模式图两种。至于这两个类型的区别,由于很久没有关注这块,所以只能给出一个字面意义上的区别。

    3.3K81发布于 2018-02-27
  • 来自专栏PPV课数据科学社区

    ☞【观点】成为“大数据企业”,献给不懂数据挖掘的你

    在这种策略下,大规模多源异构数据的采集、清洗和整合方法,将成为大数据管理的核心支撑。 如何挖掘企业数据的价值 企业数据的价值开发高度依赖于深度数据分析能力。 对于这一平台所积累的大量数据的价值开发,首先体现在对其信息内容的提炼上。 平台上与工作相关的博文内容,如客服案例、经验分享等,经自动筛选分类、主题识别、关键词索引之后,被构建成企业知识库,为业务及管理工作提供快速有效的知识支撑,同时成为员工培训和自学的有力工具。 通过对这些关系结构的深度分析和挖掘,G公司获得了对员工及团队的影响力、凝聚力、创造力的更为准确而深入的评估手段。 知识无极限 6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布 7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载 8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募 9、

    73970发布于 2018-04-20
  • 来自专栏华章科技

    如何成为大数据企业?献给不懂数据挖掘的你

    在这种策略下,大规模多源异构数据的采集、清洗和整合方法,将成为大数据管理的核心支撑。 如何挖掘企业数据的价值 企业数据的价值开发高度依赖于深度数据分析能力。 对于这一平台所积累的大量数据的价值开发,首先体现在对其信息内容的提炼上。 平台上与工作相关的博文内容,如客服案例、经验分享等,经自动筛选分类、主题识别、关键词索引之后,被构建成企业知识库,为业务及管理工作提供快速有效的知识支撑,同时成为员工培训和自学的有力工具。 通过对这些关系结构的深度分析和挖掘,G公司获得了对员工及团队的影响力、凝聚力、创造力的更为准确而深入的评估手段。 例如,当G公司试图整合博客平台、业务系统、人力资源系统中的数据以全方位分析员工、团队特质以及绩效信息时,大量的数据属性之间所构成的复杂潜在关联网络,就需要强有力的关联发现技术来加以处理。

    38820发布于 2018-08-14
  • 来自专栏NLPIR

    NLPIR中文数据挖掘帮助企业执行最佳商业决策

    数据在生活中应用增加,数据仓库,数据安全,数据分析,数据挖掘这些技术的热度居高不下。其中,数据挖掘能够对企业的业务数据进行抽取,转换和分析,促成企业执行最佳商业决策。 同时,在企业进行营销方面,从海量数据挖掘信息,将复杂数据设置成量化数据进行分析,是企业实行数字化营销的重要方面,对数据的准确分析能够实现最佳商业决策。 灵玖软件NLPIR大数据语义智能分析平台针对中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,先后历时十八年,服务了全球四十万家机构用户,是大时代语义智能分析的一大利器 NLPIR-Parser大数据语义分析平台企业提供了一体式全链条服务,包括分词词性、情感分析、实体识别、关键词提取,实现对语法、词法和语义的综合应用。 NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台

    99640发布于 2019-09-24
领券