当我们需要训练一个模型,但是训练数据集真的很小的时候,可能的方法是什么?(假设我们有大量的数据,只是没有多少数据被标记)
我知道斯坦福的一个图书馆:https://hazyresearch.github.io/snorkel/,它可以根据一些预先确定的专家规则生成培训标签。(附带的问题是,有人碰巧知道这个图书馆的下划线数学/统计数字是什么?)
但是,我想知道在不能使用snorkel包的情况下,有什么方法来标记更多用于培训的数据呢?这里能使用最大可能性估计吗?如何实施这样的算法,为培训数据贴上标签?
顺便说一句,我正在寻找一种数学方法,而不是像使用亚马逊机械土耳其人那样的蛮力方法。
谢谢!
发布于 2018-05-23 06:08:07
假设我们有大量的数据,只是没有太多的数据被标记。
尝试首先通过使用无监督的方法来解决问题,然后,将所学的特性用于任何下游任务。
见深层生成模型。
根据一些预先确定的专家规则生成培训标签
如果您有一些可以生成数据分布的函数,那么您为什么要费心地寻找类似于前者的另一个函数。
您可以将此方法用于评估目的,例如比较正在解决的问题的不同模型。
为培训贴上更多数据标签的方法是什么?
您可以聚合(平均)不同的模型来处理相同的问题,但是使用不同的数据集。
最大的可能性估计可以在这里使用。
正如我所说,我们可以最大限度地利用数据的可能性,给与训练数据非常相似的样本提供很高的概率,这对于利用内部结构(学习数据流形)是非常有用的,它可以潜在地解开产生数据的因素,其中的一部分可能是预测你试图预测的目标y的直接信号。
发布于 2018-05-23 07:53:32
有些方法是在有少量标记数据和大量未标记数据的情况下:
半监督学习https://en.wikipedia.org/wiki/Semi-supervised_学习 -标记数据的监督算法和无标记数据的无监督算法的混合。其中之一(标签传播)甚至在scikit中实现--学习http://scikit-learn.org/stable/modules/label_propagation.html。
主动学习http://active-learning.net/ --主动选择他们学习的数据的算法,这样他们就可以使用更少的标记数据来获得更好的性能。
这两种方法是相辅相成的。因此,存在着主动+半监督学习算法的组合.
https://datascience.stackexchange.com/questions/32015
复制相似问题