首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用无监督学习建立监督分类是否合理?

使用无监督学习建立监督分类是否合理?
EN

Data Science用户
提问于 2020-05-22 09:30:43
回答 1查看 41关注 0票数 1

我有一个描述基因的生物数据集。总体的想法是,有成千上万的这些基因需要分类,所以如果ML能够对它们进行排序,我就可以知道哪些基因应该首先进入实验室进行功能研究。目前,我根据这些基因的已知生物学为这些基因制作有监督的分类标签(例如,一些基因与与疾病相关的药物相互作用,因此我将它们贴上“最有可能引起疾病的可能性”的标签,直到我有最后第四个标签“不太可能引起疾病”为止)。我制作这些标签的方式似乎不可能没有偏见,因为所有的决定都是我做的,所以我想知道我的决定是否可以与无监督的模型如何将数据分组(例如,我有4个标签,但是如果该模型找到5个组,那么它显示出我有多远?)。

它甚至还可能使用无人监督的学习来创建标签本身,还是这也是不可靠的,因为你不知道它为什么要将某些基因组合在一起?或者单独执行这一步实际上会使监督步骤变得多余吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-05-22 13:18:50

  • 使用无监督学习建立监督分类是否合理?

绝对一点儿没错。这是ML中常见的策略。正如您自己说的,使用来自数据本身的信息可以减少偏见。

  • 是否也可以使用无监督的学习来制作标签呢?

从技术上说是的。但是,有些集群技术要求您指定集群的数量,这是没有帮助的。正如您所说,如果您能够以令人满意的方式对数据点进行聚类,则不再需要有监督的学习。而且,实际上,如果您的场景要求您了解集群的区别,那么根据哪些集群的出现,您可能并不幸运。它们并不总是可以解释的。

我的建议是把你的分类问题变成回归问题。1.0可能是最有可能导致疾病的,0.0,最小的可能性。这样,你就不用担心你一开始需要多少标签。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/74636

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档