文章/答案/技术大牛

发布

社区首页 >问答首页 >制作有标签的培训数据集

问制作有标签的培训数据集
EN

Data Science用户

提问于 2015-06-01 11:25:59

回答 1查看 921关注 0票数 3

我们正在开发一个分类系统，其中分类是固定的，但其中许多是相互关联的.

例如，我们有一个名为"roads“的类别，还有一个名为"traffic”的类别。我们相信，该模型会被文本样本混淆，这些样本可能属于roads范畴，也可能属于traffic范畴。

我们的一些文本样本也适用于多类标签。例如，“人行道附近有一个垃圾堆，人行道完全坏了”。本文可以分为garbage桶或footpath桶。

通过手动注释文本，我们将为这个分类器构建一个训练集。那么，我们能为一个问题加上多个标签吗？我们应该如何处理具有多个标签的文本？是否应将其作为培训样本添加到被标记的所有类别中？

例如，“人行道附近有一个垃圾堆，人行道完全坏了”。本文可以分为garbage桶或footpath桶。那么，这篇文章是否应该作为garbage和footpath的培训样本添加呢？我们该如何考虑标签呢？

你能给出你的见解吗？

text-mining

multiclass-classification

回答 1

Data Science用户

回答已采纳

发布于 2015-06-01 17:08:46

通常，对于多个类，您必须区分独占组和包含组。最简单的情况是“所有类都是排他性的”(只预测一个类)和“所有类都兼容”(预测应用的类列表)。

无论哪种方法，都要将类标记为您希望经过培训的模型来预测它们。如果您期望您的分类器同时在garbage和footpath中预测一个示例，那么您应该将这两个示例都标记为这样一个示例。如果您想要消除它们之间的歧义，那么使用一个正确的类进行标记。

为了训练一个分类器同时预测多个目标类，通常只需要选择正确的目标函数，而支持它的是一个具有体系结构的分类器。

例如，使用神经网络，您将避免使用用于预测单个类的"softmax“输出--相反，您可以使用常规的"sigmoid”函数，并在每个输出的简单阈值上预测类成员数。

如果您的数据可以分成几个排他组(在第一阶段预测组)，并且在第二阶段有多个特定于组的模型来预测每个组中的类组合，那么您也可以通过管道模型获得更复杂的信息。这对于你的问题来说可能是过分的，尽管如果它使你的单个模型保持简单(例如，它们都可能是逻辑回归，那么第一阶段可能会获得一些准确性，如果组更容易分离的话)。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/5969

复制

相似问题

问制作有标签的培训数据集
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问制作有标签的培训数据集EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问制作有标签的培训数据集
EN