开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >主题分割-是在原始空间、TfIdf空间还是语义空间？

问主题分割-是在原始空间、TfIdf空间还是语义空间？
EN

Data Science用户

提问于 2018-08-16 15:42:57

回答 1查看 104关注 0票数 0

让我们假设我们有一个文档集合，并希望执行一些无监督的主题分割。

和往常一样，我们将执行一些预处理(包括标记化、重音去除、低胁迫、归一化等等)，并将令牌列表转换为原始计数或tfidf向量。我们称之为矩阵M。

现在我们有了几种可能的方法来执行一些简单的单词主题切分：

将矩阵分解方法(LSI、LDA、NMF)直接应用于M，并将结果作为主题。
将M的每个向量嵌入到语义空间(LSI，word2vec)中，然后在语义空间上应用矩阵分解方法。
将聚类方法(kM、DBSCAN、MSC、GMM)直接应用于M.
将M的每个向量嵌入到语义空间中，然后在语义空间上应用聚类方法。

我有两个问题：

除了那些我还没有考虑过的单词分词之外，还有其他的替代方法吗？
上述方法在概念上有什么区别，推荐哪种方法(S)？

提前感谢！

matrix-factorisation

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-08-16 17:22:51

聚类方法可以直接应用于TfIdf矩阵(通常是稀疏的)，也可以应用于派生语义空间(如LSI )中的文档。由于LSI嵌入是一个降维/降噪的步骤，因此对嵌入在语义空间中的文档进行聚类是一个很好的方法。聚类方法一般使用欧氏距离，在稠密矩阵上可能表现更好。如果您使用的集群算法实现不支持开箱即用的稀疏数据(大多数实现不支持)，那么肯定首先使用类似于LSI的转换，然后应用集群。
LSI方法本身就是对原TfIdf矩阵进行矩阵分解运算。因此，不需要在大规模集成电路( LSI )之上应用矩阵分解。

票数 0

EN

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/37037

复制

相似问题