问重重叠的部分标号公开类分类问题
EN

Data Science用户

提问于 2022-02-22 16:28:03

回答 1查看 22关注 0票数 1

假设我们有大量的文本，包括关于电影和体育的讨论。无监督的聚类通常会聚成两个讨论主题。然而，我们对这篇文章的作者感兴趣，他们都写过这两个主题。如果我们对主题有标签，那么是否有一种方法可以通过消除与标签分类(主题)相对应的特性来建立一个由作者进行聚类的无监督系统？

我看过这篇论文：https://arxiv.org/pdf/1908.08788.pdf，但我不确定小说(即无标签)类会在多大程度上与标签类重叠，因为我对论文的理解是它假定了唯一的分类器。同样，这也不是典型的公开类情况，因为标签数据与作者重叠。

发布于 2022-02-22 20:32:34

主题标签对于此任务是完全无用的，因为它们不包含任何关于作者的指示。

我们所处理的是一个作者归属问题，它属于测定仪方法的大家族。更确切地说，我认为这可能非常接近样式变化检测的问题，但问题的确切说明取决于不同作者的文本是否已经在单独的文档中提供。如果可以使用单独的文档(每个文档都有一个作者)，则可以使用一般的作者验证方法。

Imho这个场景中的主要问题是，您甚至对数据的某些子集都没有任何标签，因此您可以运行一些无监督的系统，但是无法评估其结果。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/108428

复制

相似问题

问重重叠的部分标号公开类分类问题EN