我有一个病人记录的数据集。但我不知道他是否患了癌症。因此,我的数据集中没有标签。
现在我可以运行像聚类这样的机器学习模型来生成标签。
对于示例:我可以运行集群,根据相似性对这两个类进行分组,并找出谁都属于+ve和-ve类。
当然,我们不能坐以待毙,手工检查病人的数据,以了解他是否真的患上了癌症。
因此,当我们通过机器学习模型(如上面的聚类)生成标签时,这是一种推荐的方法吗?
它是否用于工业/实时,当人们没有真实感,只依赖基于ML模型的标签?
我们如何信任这些生成的标签?
如果它是人类,我知道它是可以信任的。但我们怎么相信这些标签。
像这样的东西是否被用于工业,以及它们如何处理信任问题?
发布于 2020-03-09 10:30:11
因此,当我们通过机器学习模型(如上面的聚类)生成标签时,这是一种推荐的方法吗?只有当你真的可以形成高度不同的两个集群/组。这将是高度不可能的,特别是对于复杂和高维数据集。其原因之一是聚类算法比监督聚类算法弱。如果你能找到一种很好的表示法(看看从Bengio那里学到的表象),即高度区分性的嵌入,那么它可能会起作用。
它是否用于工业/实时,当人们没有真实感,只依赖基于ML模型的标签?这是一种选择,人们可以肯定地尝试它,但不依赖它。
我们如何信任这些生成的标签?只要你能用地面真理来验证它,或者与人类一起观察星团,那就没有问题了。
像这样的东西是否被用于工业,以及它们如何处理信任问题?这是可能的解决办法之一,我个人总是尝试先转移学习。特别是对于像你这样的问题,很可能已经有了一些预先训练过的模型。唯一需要的是一些标签工具,为1000个样本(它需要几个小时,但它是值得的)。看看这个工具。
https://datascience.stackexchange.com/questions/69384
复制相似问题