首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏R语言 / Linux

    GEO数据挖掘-2

    GEO数据挖掘2 四、代码分析流程 1. 下载数据并从中提取有用信息 gse_number = "GSE56649" eSet <- getGEO(gse_number, destdir = '. require(hgu133plus<em>2</em>.db))BiocManager::install("hgu133plus<em>2</em>.db") library(hgu133plus<em>2</em>.db) ls("package:hgu133plus<em>2</em> = b[,c("ID","Gene Symbol")] colnames(ids<em>2</em>) = c("probe_id","symbol") k1 = ids<em>2</em>$symbol! ="";table(k1) k<em>2</em> = ! str_detect(ids<em>2</em>$symbol,"///");table(k<em>2</em>) ids<em>2</em> = ids<em>2</em>[ k1 & k<em>2</em>,] # ids = ids<em>2</em> } ​ # 方法3 官网下载注释文件并读取

    1.1K01编辑于 2023-03-18
  • 来自专栏数据科学与人工智能

    【数据挖掘】数据挖掘#商业智能(BI)数据分析挖掘概念

    数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结,希望你喜欢。 商业智能(Business Intelligence): 分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程。 与人工智能、数据挖掘、统计方法关系密切。 购物篮分析(Market Basket Analysis): 识别在交易中经常同时出现的商品组合或服务组合,例如经常被一起购买的产品。 文本挖掘(Text Mining): 对包含自然语言的数据的分析。对源数据中词语和短语进行统计计算,以便用数学术语表达文本结构,之后用传统数据挖掘技术分析文本结构。 网络挖掘/网络数据挖掘(Web Mining / Web Data Mining) : 使用数据挖掘技术从互联网站点、文档或服务中自动发现和提取信息。

    3.2K90发布于 2018-02-27
  • 来自专栏火星娃统计

    geo数据挖掘-2

    geo数据挖掘-2 sunqi 2020/7/11 1.概述 对下载的数据进行处理,提取表达矩阵,并匹配探针信息,基因名 教程来自:https://github.com/jmzeng1314/GEO/ 2.数据下载 2.1 获得表达数据‘ rm(list=ls()) # 设置默认转换因子为否 options(stringsAsFactors = F) # 目标文件 f='GSE42872_eSet.Rdata 6.80701 6.90597 6.72472 6.77028 6.77058 # 可以看到列名为样本好,行名为探针名 # 绘制箱式图 boxplot(dat,las=2) colnames(Table(gpl)) head(Table(gpl)[,c(1,12)]) probe2gene=Table(gpl)[,c(1,12)] head(probe2gene ) save(probe2gene,file='probe2gene.Rdata') } # 获得平台的所有探针 load(file='probe2gene.Rdata') # 需要的时候通过

    1.5K21发布于 2020-09-15
  • Python数据挖掘编程基础2

    )的结果是(0,1,2)。 一些常见的与列表或元组相关的函数如表2-1所示。此外,列表作为对象,自带了很多实用的方法(元组不允许被修改,因此方法很少),如表2-2所示。此外,列表还有"列表解析"这一功能。 代码清单2-3 使用append()方法对列表元素进行操作c=[1,2,3]d=[]for i in c:d.append(i+1)print(d)//输出结果为[2,3,4]将代码清单2-3使用列表解析进行简化 ,如代码清单2-4所示。 c=[1,2,3]d=[i+1 for i in c]print(d) //输出结果也为[2,3,4]

    15710编辑于 2025-05-09
  • 来自专栏原创

    智能数据架构,挖掘增长金矿

    对很多技术团队来说,在搭建智能数据架构的过程中,或多或少会遇到一些疑惑和挑战,经过多次实践后,有些团队已经破除疑惑,成功探索出一条搭建智能数据架构之路,那么他们是如何实现这一技术的呢? 2.从成效出发,聚焦痛点,不要盲目跟随行业,做好系统和培训的一体化。 3.谨慎引入新技术栈。 聚美优品大数据高级工程师 贺鹏《大数据3.0流计算与智能决策》 大数据3.0时期,Hadoop第一代、Spark内存计算第二代,早期流计算以及人工智能流计算同时并存。 流计算发展至今,已经具备了CEP这一强大功能,这也是支撑流计算智能化的关键因素所在。 通常情况下, ML模型主流场景有分类和回归两大场景,他们可以检查抽象中无状态 f = fx(x1,x2 ..)无状态模型(有状态的模型典型代表rnn),而在SQL语义中 UDF刚好与之对应(无状态),需要把模型放入流处理系统中

    66120发布于 2019-03-12
  • 来自专栏智能大数据分析

    【机器学习 | 数据挖掘智能推荐算法

    智能大数据分析是指利用先进的技术和算法对大规模数据进行深入分析和挖掘,以提取有价值的信息和洞察。 它结合了大数据技术、人工智能(AI)、机器学习(ML)和数据挖掘等多种方法,旨在通过自动化的方式分析复杂数据集,发现潜在的价值和关联性,实现数据的自动化处理和分析,从而支持决策和优化业务流程。 与传统的人工分析相比,智能大数据分析具有自动化、深度挖掘、实时性和可视化等特点。智能大数据分析广泛应用于各个领域,包括金融服务、医疗健康、零售、市场营销等,帮助企业做出更为精准的决策,提升竞争力。 三、基于关联规则的智能推荐 关联规则可以挖掘出物品间的关联关系,物品间的关联性越强推荐给用户时越可能受用户喜欢,提取关联规则的最大困难在于当存在很多商品时,可能的商品的组合(规则的前项与后项)的数目会达到一种令人望而却步的程度 接着介绍了智能推荐几种常见的智能推荐算法,包括关联规则和协同过滤等,其中关联规则可以挖掘出物品间的关联关系,依据关联关系的强弱为用户推荐,常见的关联规则算法有Apriori和FP-Growth。

    1K10编辑于 2025-01-22
  • 黑马-人工智能与数据挖掘

    在高校毕业生就业形势复杂的今天,一个领域的相关人才却持续被企业高薪争抢,起薪远超许多传统行业,成为了名副其实的“职场黑马”——这就是人工智能与数据挖掘领域。 这就需要既懂数据挖掘技术,能“淘出真金”,又懂人工智能算法,能“点石成金”的复合型人才。市场上对这类人才的需求呈现爆炸式增长。 核心技术与工具:数据挖掘:精通数据清洗、预处理、特征工程,掌握聚类、分类、关联分析等经典算法。机器学习:深入理解监督学习、无监督学习、强化学习等模型原理与应用场景。 三、职业前景:一条广阔的上升通道选择AI与数据挖掘赛道,意味着选择了一条高成长性的职业路径。 结语:人工智能与数据挖掘作为一匹强劲的“黑马”,正奔驰在时代的最前沿。对于个人而言,它或许意味着一个充满挑战与机遇的职业新起点;对于社会而言,它则是推动产业升级、迈向智能未来的核心驱动力。

    37210编辑于 2025-09-12
  • 来自专栏全栈程序员必看

    人工智能万亿市场待挖掘

    因此,通过数据挖掘和搜索算法对数据工厂中的知识库和信息库进行分类与关联的技术能力同样是人工智能企业的重要进入门槛。 (2)再以Nest的智能温控技术为例。 舆情监测以中文信息处理技术和中文自然语言处理技术为基础,融合了信息检索、文本挖掘等研究技术,提供中文智能信息挖掘智能分析软件,具有对海量文本内容进行智能检索、智能分析及智能化自动处理的功能,可以解决海量信息的智能分析处理 未来语义识别将和文本挖掘、数据挖掘等技术结合,更多地应用在商业化的领域,发展空间巨大。 深度挖掘大数据形成对企业商业决策的有效支持是行业未来重要发展方向,拓尔思将以此形成自己独特的商业智能应用模式。

    2K20编辑于 2022-06-25
  • 来自专栏cloudskyme

    跟我一起数据挖掘(19)——什么是数据挖掘2

    2、聚类 聚类:将数据对象划分为若干类,同一类的对象具有较高的相似度,不同类的对象相似度较低。从这个简单的描述中,可以看出聚类的关键是如何度量对象间的相似性。 DM(Data Mining)的技术基础是人工智能(机器学习),但是DM仅仅利用了人工智能(AI)中一些已经成熟的算法和技术,因而复杂度和难度都比AI小很多。 在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中。 并将这些目的与数据挖掘的定义以及结果结合起来。 2: data understanding: 数据的理解以及收集,对可用的数据进行评估。 (数据挖掘报告)。 ?

    1.4K50发布于 2018-03-20
  • 来自专栏数据科学与人工智能

    【金融数据】挖掘数据价值,打造智能银行

    第三层,从信息上升至知识,即知识发现层,在此层面,数据挖掘技术和人工智能至关重要,对整合的信息进行分解、提炼,从中找出有价值的信息点,实现信息到知识的转变。 结合国内外先进企业的大数据经验,民生银行围绕充分挖掘大数据价值,以“智能化、云端化、标准化、移动化”(“四化”)建设为主线,努力打造和提升大数据能力,积极推进全行的大数据战略。 “四化”建设纵贯数据获取与存储、数据整合、数据挖掘、数据应用整个大数据价值链,是一个影响深远的系统性工程。 大数据智能化 为进一步提升客户关系管理与服务水平,营造可持续发展的金融生态环境,切实提高全行对公业务的规划能力、营销能力、产品支持能力、风险管理能力、考核评价能力,民生银行建成智能管家平台,借助互联网思维和大数据分析挖掘工具 ,运用复杂网络科学、文本挖掘、购物篮分析等数据挖掘技术和力导向布局图、蜗牛图等数据可视化手段,构建了上下游客户推荐模型、智能产品推荐模型、交易网络模型,设计开发了客户推荐、产品推荐等功能,为客户经理、管理人员提供针对性

    1.4K50发布于 2018-02-27
  • 来自专栏PPV课数据科学社区

    数据挖掘系列(2)--关联规则FpGrowth算法

    上一篇数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现 今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。    二、利用FpTree挖掘频繁项集   FpTree建好后,就可以进行频繁项集的挖掘挖掘算法称为FpGrowth(Frequent Pattern Growth)算法,挖掘从表头header的最后一个项开始 构造好条件树后,对条件树进行递归挖掘,当条件树只有一条路径时,路径的所有组合即为条件频繁集,假设{啤酒}的条件频繁集为{S1,S2,S3},则{啤酒}的频繁集为{S1+{啤酒},S2+{啤酒},S3+{ } T2 {牛奶} T3 {牛奶,面包} T4 {牛奶,面包}  注意{牛奶,面包:2},即{牛奶,面包}的count为2,所以在{牛奶,面包}重复了两次,这样做的目的是可以利用之前构造FpTree

    1.5K90发布于 2018-04-23
  • 来自专栏人生代码

    数据挖掘实践指南读书笔记2

    (ratings[band1] - avg)**2 dem2 += (ratings[band2] - avg)**2 return num / (sqrt(dem1) * sqrt (dem2)) 相似矩阵预测: ? & rating2 in that set of ratings: for (item2, rating2) in ratings.items(): #value of complex dic is dev self.deviations[item][item2] += rating - rating2 ratings[item2] /= self.frequencies[item][item2] # test code for ComputeDeviations(self) #r = recommender

    42140发布于 2019-10-30
  • 来自专栏PPV课数据科学社区

    数据挖掘人工智能使教育定制化

    自适应学习 这是从小学到大学整个教育体制的再造,McGraw-Hill教育正在开发数字课程,准备相关的课程资料,它从200万学生中收集信息,利用人工智能为每个学生创建自适应的学习体验。 2月,DonorsChoose向公众公布了捐赠的历史数据和趋势报告。 DonorsChoose.org的数据科学家Vlad Dubovskiy说:“校长和管理人员可以对这些数据进行挖掘,及时了解学校教师的请求。” 是弗吉尼亚州高等教育委员会政策研究和数据仓库的负责人,他告诉我们:当大数据应用到教育领域时,“一切皆有可能”,作为弗吉尼亚州纵向数据系统(Longitudinal Data System)的一部分,委员会目前正在挖掘所有公共和非营利大学的学生数据

    88350发布于 2018-04-18
  • 来自专栏韩曙亮的移动开发专栏

    【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★

    文章目录 一、 贝叶斯分类器分类的流程 二、 拉普拉斯修正 三、 贝叶斯分类器示例2 参考博客 : 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 ) 【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 ) 【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 ) 【数据挖掘】朴素贝叶斯分类器 ( 多属性概率计算 | 朴素贝叶斯分类案例分析 ) 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 ) 【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 ) 一、 贝叶斯分类器分类的流程 ---- 已知条件 : 已知样本 P(X|senior) &=& \rm \cfrac{8 + 1}{52 + 2} \times \cfrac{35 + 1}{52 + 2} \times \cfrac{0 + 1}{52 + 2}

    62400编辑于 2023-03-28
  • 来自专栏DJ生信学习笔记

    生信技能树-数据挖掘Day2

    Day2主要内容:向量一、向量生成二、单个向量操作三、两个向量操作四、向量筛选(取子集)图片图片图片图片图片图片1、比较运算 2、数学计算 3、连接图片循环补齐发生的条件:等位运算;两个向量长度不相等图片图片图片图片图片

    18600编辑于 2023-08-08
  • 来自专栏机器学习AI算法工程

    【趣味】数据挖掘(2)——烤鸭 面饼之朴素关联

    在”数据挖掘(1)——‘被打’与‘北大’的关联“中借有趣的实例介绍了关联规则的三度 (支持度、置信度,兴趣度)概念。 为答博友,此文从原讲课PPT中,取一些素材,来解释关联规则的挖掘思路和应用方法。 要求挖掘出支持度 不小于 2/5(即至少同时被买两次)的商品间的关联。 下面先介绍朴素而费时的笨方法,后介绍聪明一些的方法。 记录总数记为N,N=5; 商品总数记为M,M=6。 这里的数值2/5称为支持度阈值t,支持度 不小于2/5的商品组成的集合称为高频集。 但是,量变引起质变,当数据变得很大,此法就从可行变为不可行了 考察挖掘关联规则实际过程,易见过程分两大步: (a) 筛出高频集。

    90970发布于 2018-03-09
  • 来自专栏用户7627119的专栏

    TCGA数据挖掘—肿瘤免疫浸润分析思路2

    上次给大家介绍了TCGA肿瘤样本根据免疫情况分析不同的免疫亚型(TCGA数据挖掘-肿瘤免疫浸润分析)。这一次给大家介绍肿瘤免疫浸润的另一种研究思路。 在上图中,T3期的样本免疫激活功能富集情况相比T1、T2整体偏低,T2期有部分样本免疫激活功能富集也偏低,这部分人群可能实际处于T2、T3的中间状态。 从图中可以看出淋巴细胞功能基因集LIexpression_score在T1期高富集,并且跟T2、T3期差异显著。 如下图,HLA-DPA1基因能显著性区分T2期样本的生存预后。 ? T1期 ? T2期 ? T3期 06 重要免疫特征分布分组比较 最后,我们还可以分析不同分期病人的一些重要免疫特征的分布如M1:M2、Macrophages:Lymphocytes、Th1:Th2等等。 ? ?

    1.3K30发布于 2020-08-06
  • 来自专栏生信技能树学习笔记

    GEO数据挖掘2(分组+探针注释的获取)

    require(hgu133plus2.db))BiocManager::install("hgu133plus2.db") #安装并加载R包,R包完整的名字应该是搜索到的名字+.dblibrary(hgu133plus2 .db)ls("package:hgu133plus2.db") #查看该R包里所有的数据and函数ids <- toTable(hgu133plus2SYMBOL)head(ids)2.从GPL网站提取探针注释在该 = b[,c("ID","Gene Symbol")] colnames(ids2) = c("probe\_id","symbol") #更改行名 k1 = ids2$symbol! str\_detect(ids2$symbol,"///");table(k2) ##去掉对应多个基因名的探针id ids2 = ids2[ k1 & k2,]并不一定所有的探针注释中开放性探针都是" ",所以要看一下如图片这里我们可以取数据框子集查看里面的内容是什么ids2$[410,2] 3.探针平台的官网寻找4.自主注释(自学一下)#https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA

    2.6K31编辑于 2023-02-18
  • 来自专栏muller的测试分享

    人工智能,应该如何测试?(二)数据挖掘

    如果你面对的是一个人工智能平台,那么这些也就变成了测试对象。数据标注:我们面对的大部分都是监督学习,所谓监督学习,就是算法在学习这份数据的时候, 我们需要告诉算法这条数据的答案。 因为人工智能是在大数据的基础之上的, 我们可能要面对数以百万,千万甚至亿的数据量。 withColumn("uin", functions.abs(functions.col("uin").cast(DataTypes.LongType))) .toDF();其他挖掘方法其实挖掘数据没有太多的技术难点 yolov 过滤图片上次文章介绍 aigc 的测试方法时说过用 yolov + blip 可以组一些 bug 挖掘的工作。 我借鉴这个思路来做数据挖掘。 我们以上面的数据挖掘工具为例子来讲解一下一般模型微调的过程。

    47612编辑于 2024-04-07
  • 来自专栏漏洞战争

    honggfuzz漏洞挖掘技术深究系列(2)—— Persistent Fuzzing

    上篇《honggfuzz漏洞挖掘技术深究系列(1)——反馈驱动(Feedback-Driven)》讲到基于软件的代码覆盖率驱动fuzzing的方式,除了软件还有硬件方式,即基于Intel BTS (Branch

    1.2K30发布于 2019-07-18
领券