对于无监督文本聚类,关键是文本的init嵌入。
如果我们想要对文本使用深簇,那么文本的问题就是如何从深层模型中获得init嵌入。
BERT不能很好地嵌入init。
如果我们不使用深度模型,是否有更好的方法来获得比手套文字更好的嵌入?
发布于 2020-07-20 08:20:57
通常,在单个句子/文档表示中组合单词向量并不能很好地工作,尽管平均嵌入已经在fastText和池在本文中中使用过。
您也可以使用自动编码器来尝试和预测单词的分布,类似于一种类似于这里的单词包方法。
https://datascience.stackexchange.com/questions/77862
相似问题