假设我们有大量的文本,包括关于电影和体育的讨论。无监督的聚类通常会聚成两个讨论主题。然而,我们对这篇文章的作者感兴趣,他们都写过这两个主题。如果我们对主题有标签,那么是否有一种方法可以通过消除与标签分类(主题)相对应的特性来建立一个由作者进行聚类的无监督系统?
我看过这篇论文:https://arxiv.org/pdf/1908.08788.pdf,但我不确定小说(即无标签)类会在多大程度上与标签类重叠,因为我对论文的理解是它假定了唯一的分类器。同样,这也不是典型的公开类情况,因为标签数据与作者重叠。
https://datascience.stackexchange.com/questions/108428
复制相似问题