我收到了一个数据集,其中包含一个文本字符串和一个标签,将该文本分类为50个类别之一。我希望能建立一个模型来预测一个字符串属于哪个类别。
当将数据集放在一起时,它是在假设每个文本字符串只能属于一个组的前提下组装的。实际上,文本可以同时属于多个组。
而不是回到绘图板,手动标记数据,我想尝试把这个单标签数据集转换成一个多标签数据集。
我试过一种结果可疑的方法。我建立了一个线性回归,预测每个类别,并将这些预测附加到原始数据中。虽然这给了我所需要的结构中的数据,但它产生了平淡无奇的结果。大多数文本字符串仍然只属于一个类别(许多应该属于多个),而且很好的一部分根本没有分配任何标签。
看来,即使我能把这些数据"Frankenstein“放在一起,它也不能作为高质量的培训数据。我很好奇,有没有很好的方法把这个单标签数据转换成多标签数据?
发布于 2019-01-16 17:09:37
你应该考虑用神经网络来解决这个问题。通过在多个类别中使用二进制交叉熵,您可以获得每个类别的概率“评级”,以及它如何应用于文本。在那里,您可以开发一个脚本来建立一个阈值(比如0.8),然后为这个跨多个类别的特定文本创建一个标记数据的新条目。人们获取IMDB数据和电影描述并为一部电影分配多种类型的例子很多(比如“恐怖”电影也可以是“悬念”电影,或者“喜剧”电影也可以是“动画”电影)。这些类型的例子应该适合你在这里需要的东西。
发布于 2019-11-22 07:35:27
是否有可能进行某种形式的聚类?
实际上,我也在尝试这样做(将单个标签数据转换为多标签数据,除非我的数据是时间序列形式)。因此,在我的例子中,时间序列可以转换成一个成对距离矩阵。然后,利用某种形式的聚类方法(k-均值),将相似形状/模式的时间序列聚在一起。最后,每个集群中的每个示例都可以拥有当前位于同一组中的所有标签。
我不知道这是否是正确的方法,因为我也在研究。希望有其他专家能提供一些见解
https://datascience.stackexchange.com/questions/44096
复制相似问题