首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >同时聚类癌症基因表达数据?

同时聚类癌症基因表达数据?
EN

Stack Overflow用户
提问于 2018-07-27 21:43:35
回答 2查看 37关注 0票数 0

我正在研究基因表达数据聚类技术,我已经从网络上下载了35个数据集,我们有35个数据集,每个数据集代表一种癌症。每个数据集都有自己的功能。其中一些数据集在多个特征中共享,其中一些从特征的角度来看并不共享任何内容。

我的问题是,我们如何最终集群这些数据,而它们中的许多并不具有相同的特征?

我认为我们可以同时对所有35个数据集进行聚类操作。我的想法正确吗?

任何帮助都是非常感谢的。

EN

回答 2

Stack Overflow用户

发布于 2018-07-27 21:50:15

我假设当你说异源的时候,它是指不同的基因表达平台,其中存在不同的基因。

您可以使用任何聚类技术,但您需要编写自己的距离度量,以考虑数据集中的异构性。例如,您可以使用成对样本之间所有公共基因的相关性,从中创建一个距离矩阵,然后在此距离矩阵上使用诸如层次聚类之类的东西

票数 0
EN

Stack Overflow用户

发布于 2018-07-27 22:22:55

我认为没有必要编写自己的距离度量。已经有大量的距离度量可以用于混合数据类型。例如,gower距离适用于混合数据类型。请参阅同一个post上的。但是如果你的数据只包含连续的值,那么你可以使用k-means。如果先对数据进行预处理,也会更好。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51559311

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档