首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >主题分割-是在原始空间、TfIdf空间还是语义空间?

主题分割-是在原始空间、TfIdf空间还是语义空间?
EN

Data Science用户
提问于 2018-08-16 15:42:57
回答 1查看 104关注 0票数 0

让我们假设我们有一个文档集合,并希望执行一些无监督的主题分割。

和往常一样,我们将执行一些预处理(包括标记化、重音去除、低胁迫、归一化等等),并将令牌列表转换为原始计数或tfidf向量。我们称之为矩阵M。

现在我们有了几种可能的方法来执行一些简单的单词主题切分:

  • 将矩阵分解方法(LSI、LDA、NMF)直接应用于M,并将结果作为主题。
  • 将M的每个向量嵌入到语义空间(LSI,word2vec)中,然后在语义空间上应用矩阵分解方法。
  • 将聚类方法(kM、DBSCAN、MSC、GMM)直接应用于M.
  • 将M的每个向量嵌入到语义空间中,然后在语义空间上应用聚类方法。

我有两个问题:

  1. 除了那些我还没有考虑过的单词分词之外,还有其他的替代方法吗?
  2. 上述方法在概念上有什么区别,推荐哪种方法(S)?

提前感谢!

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-08-16 17:22:51

  1. 聚类方法可以直接应用于TfIdf矩阵(通常是稀疏的),也可以应用于派生语义空间(如LSI )中的文档。由于LSI嵌入是一个降维/降噪的步骤,因此对嵌入在语义空间中的文档进行聚类是一个很好的方法。聚类方法一般使用欧氏距离,在稠密矩阵上可能表现更好。如果您使用的集群算法实现不支持开箱即用的稀疏数据(大多数实现不支持),那么肯定首先使用类似于LSI的转换,然后应用集群。
  2. LSI方法本身就是对原TfIdf矩阵进行矩阵分解运算。因此,不需要在大规模集成电路( LSI )之上应用矩阵分解。
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/37037

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档