文章/答案/技术大牛

发布

社区首页 >问答首页 >AmazonSagmakerGround真理:无法获得主动学习去工作

问AmazonSagmakerGround真理:无法获得主动学习去工作
EN

Stack Overflow用户

提问于 2020-05-18 12:50:56

回答 1查看 786关注 0票数 1

我正在试着测试SagmakerGround真理的主动学习能力，但是我想不出如何让自动标签部分工作。我用我必须手动创建的初始模型开始了以前的标签工作。这使我能够检索模型的ARN作为下一项工作的起点。我上传了1,758个数据集对象，并标记了其中的40个。我以为自动贴标签会从这里开始，但在萨格梅克的工作只是说“完全”，只显示我创建的标签。我怎样才能让汽车贴标签器工作呢？

在1,000个dataset对象开始工作之前，是否必须手动标记它？我看到了这篇文章：Information regarding Amazon Sagemaker groundtruth，代表说1000个物体中的一些可以自动标记，但是如果它需要1000个对象来开始自动标记，那怎么可能呢？

提前谢谢。

amazon-sagemaker

labeling

amazon-web-services

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-20 14:53:01

我是AWS的工程师。为了理解“主动学习”/“自动数据标记”特性，首先更广泛地回顾SageMaker地面真相是如何工作的，这将是很有帮助的。

首先，让我们考虑没有主动学习功能的工作流。回想一下，地面真相批次批注数据，[https://docs.aws.amazon.com/sagemaker/latest/dg/sms-batching.html]。这意味着您的数据集将以“块”的形式提交给注释。这些批的大小由API参数MaxConcurrentTaskCount [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_HumanTaskConfig.html#sagemaker-Type-HumanTaskConfig-MaxConcurrentTaskCount]控制。此参数的默认值为1,000。当您使用AWS控制台时，您无法控制这个值，因此，除非您通过API而不是控制台提交作业来修改它，否则将使用默认值。

现在，让我们考虑一下主动学习如何适应这个工作流。主动学习在您的批次手动注释之间运行。另一个重要的细节是“地面真相”将您的数据集划分为一个验证集和一个未标记集。对于小于5,000个对象的数据集，验证集将占整个数据集的20%；对于大于5,000个对象的数据集，验证集将占整个数据集的10%。一旦收集到验证集，随后手动注释的任何数据都会考虑培训集。验证集和培训集的收集按照上一段中描述的批处理过程进行。在[https://docs.aws.amazon.com/sagemaker/latest/dg/sms-automated-labeling.html]中有一个关于主动学习的更长时间的讨论。

最后一段话有点多了，所以我会用你给出的数字给出一个例子。

示例1

1,000 objects

Computed

总数据集大小的
默认MaxConcurrentTaskCount (“批处理大小”)：1,758个

验证集大小: 0.2 * 1758 = 351 objects

批#

对351个对象进行注释以填充验证集(1407 remaining).

Annotate 1,000个对象以填充训练集的第一次迭代(407 remaining).

Run活动学习)。根据此阶段模型的准确性，此步骤可能导致注释零、部分或所有剩余的407 objects.

(Assume --步骤#3)注释407对象中没有任何对象被自动标记。结束标记作业.

例2

250个objects

Computed

总数据集大小的
非默认MaxConcurrentTaskCount (“批处理大小”)：1,758个

验证集大小: 0.2 * 1758 = 351 objects

批#

对250个对象进行注释以开始填充验证集(1508 remaining).

Annotate 101个对象以完成对验证集的填充(1407 remaining).

Annotate 250个对象)以填充训练集的第一次迭代(1157 remaining).

Run活动学习)。根据此阶段模型的准确性，此步骤可能导致对其余1157个对象的注释为零、部分或全部。在其他条件相同的情况下，我们期望模型在现阶段不如示例1中的模型精确，因为我们的训练集在这里只有250个对象。

重复批注250个对象和运行主动学习的交替步骤。

希望这些示例说明工作流，并帮助您更好地理解流程。由于数据集由1,758个对象组成，所以可以提供的自动标签数量的上限是407个对象(假设您使用默认的MaxConcurrentTaskCount)。

最终，1,758个对象仍然是一个相对较小的数据集。我们通常推荐至少5,000个对象来查看有意义的结果[https://docs.aws.amazon.com/sagemaker/latest/dg/sms-automated-labeling.html]。如果不知道标签工作的任何其他细节，就很难判断为什么您的工作没有带来更多的自动化注释。一个有用的起点可能是检查您收到的注释，并确定模型的质量，该模型是在地面真相标记工作中培训的。

来自AWS的最良好的问候！

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61870000

复制

相似问题

问AmazonSagmakerGround真理:无法获得主动学习去工作
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AmazonSagmakerGround真理:无法获得主动学习去工作EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AmazonSagmakerGround真理:无法获得主动学习去工作
EN