文章/答案/技术大牛

发布

社区首页 >问答首页 >用于训练数据的生成标签的数学算法

问用于训练数据的生成标签的数学算法
EN

Data Science用户

提问于 2018-05-23 05:36:20

回答 2查看 122关注 0票数 2

当我们需要训练一个模型，但是训练数据集真的很小的时候，可能的方法是什么？(假设我们有大量的数据，只是没有多少数据被标记)

我知道斯坦福的一个图书馆：https://hazyresearch.github.io/snorkel/，它可以根据一些预先确定的专家规则生成培训标签。(附带的问题是，有人碰巧知道这个图书馆的下划线数学/统计数字是什么？)

但是，我想知道在不能使用snorkel包的情况下，有什么方法来标记更多用于培训的数据呢？这里能使用最大可能性估计吗？如何实施这样的算法，为培训数据贴上标签？

顺便说一句，我正在寻找一种数学方法，而不是像使用亚马逊机械土耳其人那样的蛮力方法。

谢谢!

machine-learning

training

回答 2

Data Science用户

发布于 2018-05-23 06:08:07

假设我们有大量的数据，只是没有太多的数据被标记。

尝试首先通过使用无监督的方法来解决问题，然后，将所学的特性用于任何下游任务。

见深层生成模型。

根据一些预先确定的专家规则生成培训标签

如果您有一些可以生成数据分布的函数，那么您为什么要费心地寻找类似于前者的另一个函数。

您可以将此方法用于评估目的，例如比较正在解决的问题的不同模型。

为培训贴上更多数据标签的方法是什么？

您可以聚合(平均)不同的模型来处理相同的问题，但是使用不同的数据集。

最大的可能性估计可以在这里使用。

正如我所说，我们可以最大限度地利用数据的可能性，给与训练数据非常相似的样本提供很高的概率，这对于利用内部结构(学习数据流形)是非常有用的，它可以潜在地解开产生数据的因素，其中的一部分可能是预测你试图预测的目标y的直接信号。

票数 3

Data Science用户

发布于 2018-05-23 07:53:32

有些方法是在有少量标记数据和大量未标记数据的情况下：

半监督学习https://en.wikipedia.org/wiki/Semi-supervised_学习 -标记数据的监督算法和无标记数据的无监督算法的混合。其中之一(标签传播)甚至在scikit中实现--学习http://scikit-learn.org/stable/modules/label_propagation.html。

主动学习http://active-learning.net/ --主动选择他们学习的数据的算法，这样他们就可以使用更少的标记数据来获得更好的性能。

这两种方法是相辅相成的。因此，存在着主动+半监督学习算法的组合.

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/32015

复制

相似问题

问用于训练数据的生成标签的数学算法
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于训练数据的生成标签的数学算法EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于训练数据的生成标签的数学算法
EN