我最近了解了监督学习是如何工作的。它学习已标记的数据集并预测未标记的数据。
但是,我有一个问题,那就是用预测的数据示教创建的模型,然后再次预测未标记的数据是否可以。然后重复这个过程。
例如,模型M是由10个标记为数据集D的数据创建的,然后模型M预测数据A。然后,将数据A添加到数据集D中并再次创建模型M。对于不可预测的数据量,重复该过程。
发布于 2016-09-03 01:03:39
您在这里描述的是一种众所周知的技术,称为(在其他名称中) "selftraining“或"self semi-supervised training”。请参见示例幻灯片https://www.cs.utah.edu/~piyush/teaching/8-11-print.pdf。围绕这个想法有成百上千的修改。不幸的是,一般来说,很难证明它应该是有帮助的,所以虽然它对某些数据集有帮助,但对其他数据集却很难。这里的主要标准是第一个模型的质量,因为自训练是基于这样的假设,即您的原始模型是really good,因此您可以足够信任它来标记新的示例。对于一个强大的模型,它可能有助于缓慢的概念漂移,但对于弱模型,它将错误地失败。
发布于 2016-09-02 21:47:57
你所描述的是online machine learning,增量监督学习,可更新的分类器...有很多算法可以完成这些行为。参见示例weka工具箱Updateable Classifiers。我建议看看下面的几个。
https://stackoverflow.com/questions/39287793
复制相似问题