我目前有一个数据集,大约有5%的标签点和95%的未标签。只有当我非常自信地离开剩下的NaN时,我才会给一些没有标签的点贴上标签。就我个人而言,我想使用一个随机森林,但我不确定这是否可能-我想我将不得不使用一些生成模型?
我想这样做的原因之一是因为已知的点没有包含所有的标签,因此我想在使用其他的无监督学习之前,尽可能多地分类未知的点。
有图书馆可以用吗?
发布于 2020-01-27 04:46:49
大多数滑雪板分类器都有概率输出。
CLF.predict_proba这样你就可以决定门槛了。
https://datascience.stackexchange.com/questions/67063
复制相似问题