我有一个描述基因的生物数据集。总体的想法是,有成千上万的这些基因需要分类,所以如果ML能够对它们进行排序,我就可以知道哪些基因应该首先进入实验室进行功能研究。目前,我根据这些基因的已知生物学为这些基因制作有监督的分类标签(例如,一些基因与与疾病相关的药物相互作用,因此我将它们贴上“最有可能引起疾病的可能性”的标签,直到我有最后第四个标签“不太可能引起疾病”为止)。我制作这些标签的方式似乎不可能没有偏见,因为所有的决定都是我做的,所以我想知道我的决定是否可以与无监督的模型如何将数据分组(例如,我有4个标签,但是如果该模型找到5个组,那么它显示出我有多远?)。
它甚至还可能使用无人监督的学习来创建标签本身,还是这也是不可靠的,因为你不知道它为什么要将某些基因组合在一起?或者单独执行这一步实际上会使监督步骤变得多余吗?
发布于 2020-05-22 13:18:50
绝对一点儿没错。这是ML中常见的策略。正如您自己说的,使用来自数据本身的信息可以减少偏见。
从技术上说是的。但是,有些集群技术要求您指定集群的数量,这是没有帮助的。正如您所说,如果您能够以令人满意的方式对数据点进行聚类,则不再需要有监督的学习。而且,实际上,如果您的场景要求您了解集群的区别,那么根据哪些集群的出现,您可能并不幸运。它们并不总是可以解释的。
我的建议是把你的分类问题变成回归问题。1.0可能是最有可能导致疾病的,0.0,最小的可能性。这样,你就不用担心你一开始需要多少标签。
https://datascience.stackexchange.com/questions/74636
复制相似问题