首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于训练数据的生成标签的数学算法

用于训练数据的生成标签的数学算法
EN

Data Science用户
提问于 2018-05-23 05:36:20
回答 2查看 122关注 0票数 2

当我们需要训练一个模型,但是训练数据集真的很小的时候,可能的方法是什么?(假设我们有大量的数据,只是没有多少数据被标记)

我知道斯坦福的一个图书馆:https://hazyresearch.github.io/snorkel/,它可以根据一些预先确定的专家规则生成培训标签。(附带的问题是,有人碰巧知道这个图书馆的下划线数学/统计数字是什么?)

但是,我想知道在不能使用snorkel包的情况下,有什么方法来标记更多用于培训的数据呢?这里能使用最大可能性估计吗?如何实施这样的算法,为培训数据贴上标签?

顺便说一句,我正在寻找一种数学方法,而不是像使用亚马逊机械土耳其人那样的蛮力方法。

谢谢!

EN

回答 2

Data Science用户

发布于 2018-05-23 06:08:07

假设我们有大量的数据,只是没有太多的数据被标记。

尝试首先通过使用无监督的方法来解决问题,然后,将所学的特性用于任何下游任务。

深层生成模型

根据一些预先确定的专家规则生成培训标签

如果您有一些可以生成数据分布的函数,那么您为什么要费心地寻找类似于前者的另一个函数。

您可以将此方法用于评估目的,例如比较正在解决的问题的不同模型。

为培训贴上更多数据标签的方法是什么?

您可以聚合(平均)不同的模型来处理相同的问题,但是使用不同的数据集。

最大的可能性估计可以在这里使用。

正如我所说,我们可以最大限度地利用数据的可能性,给与训练数据非常相似的样本提供很高的概率,这对于利用内部结构(学习数据流形)是非常有用的,它可以潜在地解开产生数据的因素,其中的一部分可能是预测你试图预测的目标y的直接信号。

票数 3
EN

Data Science用户

发布于 2018-05-23 07:53:32

有些方法是在有少量标记数据和大量未标记数据的情况下:

半监督学习https://en.wikipedia.org/wiki/Semi-supervised_学习 -标记数据的监督算法和无标记数据的无监督算法的混合。其中之一(标签传播)甚至在scikit中实现--学习http://scikit-learn.org/stable/modules/label_propagation.html

主动学习http://active-learning.net/ --主动选择他们学习的数据的算法,这样他们就可以使用更少的标记数据来获得更好的性能。

这两种方法是相辅相成的。因此,存在着主动+半监督学习算法的组合.

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/32015

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档