我们正在开发一个分类系统,其中分类是固定的,但其中许多是相互关联的.
例如,我们有一个名为"roads“的类别,还有一个名为"traffic”的类别。我们相信,该模型会被文本样本混淆,这些样本可能属于roads范畴,也可能属于traffic范畴。
我们的一些文本样本也适用于多类标签。例如,“人行道附近有一个垃圾堆,人行道完全坏了”。本文可以分为garbage桶或footpath桶。
通过手动注释文本,我们将为这个分类器构建一个训练集。那么,我们能为一个问题加上多个标签吗?我们应该如何处理具有多个标签的文本?是否应将其作为培训样本添加到被标记的所有类别中?
例如,“人行道附近有一个垃圾堆,人行道完全坏了”。本文可以分为garbage桶或footpath桶。那么,这篇文章是否应该作为garbage和footpath的培训样本添加呢?我们该如何考虑标签呢?
你能给出你的见解吗?
发布于 2015-06-01 17:08:46
通常,对于多个类,您必须区分独占组和包含组。最简单的情况是“所有类都是排他性的”(只预测一个类)和“所有类都兼容”(预测应用的类列表)。
无论哪种方法,都要将类标记为您希望经过培训的模型来预测它们。如果您期望您的分类器同时在garbage和footpath中预测一个示例,那么您应该将这两个示例都标记为这样一个示例。如果您想要消除它们之间的歧义,那么使用一个正确的类进行标记。
为了训练一个分类器同时预测多个目标类,通常只需要选择正确的目标函数,而支持它的是一个具有体系结构的分类器。
例如,使用神经网络,您将避免使用用于预测单个类的"softmax“输出--相反,您可以使用常规的"sigmoid”函数,并在每个输出的简单阈值上预测类成员数。
如果您的数据可以分成几个排他组(在第一阶段预测组),并且在第二阶段有多个特定于组的模型来预测每个组中的类组合,那么您也可以通过管道模型获得更复杂的信息。这对于你的问题来说可能是过分的,尽管如果它使你的单个模型保持简单(例如,它们都可能是逻辑回归,那么第一阶段可能会获得一些准确性,如果组更容易分离的话)。
https://datascience.stackexchange.com/questions/5969
复制相似问题