首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >制作有标签的培训数据集

制作有标签的培训数据集
EN

Data Science用户
提问于 2015-06-01 11:25:59
回答 1查看 921关注 0票数 3

我们正在开发一个分类系统,其中分类是固定的,但其中许多是相互关联的.

例如,我们有一个名为"roads“的类别,还有一个名为"traffic”的类别。我们相信,该模型会被文本样本混淆,这些样本可能属于roads范畴,也可能属于traffic范畴。

我们的一些文本样本也适用于多类标签。例如,“人行道附近有一个垃圾堆,人行道完全坏了”。本文可以分为garbage桶或footpath桶。

通过手动注释文本,我们将为这个分类器构建一个训练集。那么,我们能为一个问题加上多个标签吗?我们应该如何处理具有多个标签的文本?是否应将其作为培训样本添加到被标记的所有类别中?

例如,“人行道附近有一个垃圾堆,人行道完全坏了”。本文可以分为garbage桶或footpath桶。那么,这篇文章是否应该作为garbagefootpath的培训样本添加呢?我们该如何考虑标签呢?

你能给出你的见解吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2015-06-01 17:08:46

通常,对于多个类,您必须区分独占组和包含组。最简单的情况是“所有类都是排他性的”(只预测一个类)和“所有类都兼容”(预测应用的类列表)。

无论哪种方法,都要将类标记为您希望经过培训的模型来预测它们。如果您期望您的分类器同时在garbagefootpath中预测一个示例,那么您应该将这两个示例都标记为这样一个示例。如果您想要消除它们之间的歧义,那么使用一个正确的类进行标记。

为了训练一个分类器同时预测多个目标类,通常只需要选择正确的目标函数,而支持它的是一个具有体系结构的分类器。

例如,使用神经网络,您将避免使用用于预测单个类的"softmax“输出--相反,您可以使用常规的"sigmoid”函数,并在每个输出的简单阈值上预测类成员数。

如果您的数据可以分成几个排他组(在第一阶段预测组),并且在第二阶段有多个特定于组的模型来预测每个组中的类组合,那么您也可以通过管道模型获得更复杂的信息。这对于你的问题来说可能是过分的,尽管如果它使你的单个模型保持简单(例如,它们都可能是逻辑回归,那么第一阶段可能会获得一些准确性,如果组更容易分离的话)。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/5969

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档