文章/答案/技术大牛

发布

社区首页 >问答首页 >将单标签数据集转换为多标签数据集。

问将单标签数据集转换为多标签数据集。
EN

Data Science用户

提问于 2019-01-16 16:48:10

回答 2查看 552关注 0票数 2

我收到了一个数据集，其中包含一个文本字符串和一个标签，将该文本分类为50个类别之一。我希望能建立一个模型来预测一个字符串属于哪个类别。

当将数据集放在一起时，它是在假设每个文本字符串只能属于一个组的前提下组装的。实际上，文本可以同时属于多个组。

而不是回到绘图板，手动标记数据，我想尝试把这个单标签数据集转换成一个多标签数据集。

我试过一种结果可疑的方法。我建立了一个线性回归，预测每个类别，并将这些预测附加到原始数据中。虽然这给了我所需要的结构中的数据，但它产生了平淡无奇的结果。大多数文本字符串仍然只属于一个类别(许多应该属于多个)，而且很好的一部分根本没有分配任何标签。

看来，即使我能把这些数据"Frankenstein“放在一起，它也不能作为高质量的培训数据。我很好奇，有没有很好的方法把这个单标签数据转换成多标签数据？

nlp

data

multilabel-classification

回答 2

Data Science用户

发布于 2019-01-16 17:09:37

你应该考虑用神经网络来解决这个问题。通过在多个类别中使用二进制交叉熵，您可以获得每个类别的概率“评级”，以及它如何应用于文本。在那里，您可以开发一个脚本来建立一个阈值(比如0.8)，然后为这个跨多个类别的特定文本创建一个标记数据的新条目。人们获取IMDB数据和电影描述并为一部电影分配多种类型的例子很多(比如“恐怖”电影也可以是“悬念”电影，或者“喜剧”电影也可以是“动画”电影)。这些类型的例子应该适合你在这里需要的东西。

票数 1

Data Science用户

发布于 2019-11-22 07:35:27

是否有可能进行某种形式的聚类？

实际上，我也在尝试这样做(将单个标签数据转换为多标签数据，除非我的数据是时间序列形式)。因此，在我的例子中，时间序列可以转换成一个成对距离矩阵。然后，利用某种形式的聚类方法(k-均值)，将相似形状/模式的时间序列聚在一起。最后，每个集群中的每个示例都可以拥有当前位于同一组中的所有标签。

我不知道这是否是正确的方法，因为我也在研究。希望有其他专家能提供一些见解

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/44096

复制

相似问题

问将单标签数据集转换为多标签数据集。
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将单标签数据集转换为多标签数据集。EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将单标签数据集转换为多标签数据集。
EN