文章/答案/技术大牛

发布

社区首页 >问答首页 >在稀疏数据的情况下，如何更快地训练LDA(潜在的Dirichlet分配)并预测新的文档？

问在稀疏数据的情况下，如何更快地训练LDA(潜在的Dirichlet分配)并预测新的文档？
EN

Stack Overflow用户

提问于 2017-09-26 14:29:17

回答 1查看 322关注 0票数 1

关于培训LDA：当我们试图实现LDA时，我们需要构造一个单词-文档矩阵，但是这个矩阵是稀疏的数据，因为我们的令牌字典非常大(大约百万字)，而且文档有一小组令牌(~ 1000 - 10000字)，所以在words documents矩阵中，它有这么多0值，并且训练模型需要更长的时间。那么我们怎样才能做得更快呢？
关于预测新文档的：经过培训，现在我们有了一个新的LDA模型，因此我们可以使用它来预测哪些主题具有新的文档。但在向模型提供新文档之前，我们需要将其转换为单词向量，其向量长度将是我们的字典长度(数百万字)。因此，它将有许多零值，实际上，我们的成本时间是由向量长度增加的。

那么，文档-词矩阵是实现LDA的有效方法吗？我们能有其他更好的方法吗？我需要一些关于我的项目的建议，所以请帮助

apache-spark

machine-learning

cluster-analysis

lda

unsupervised-learning

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-09-26 19:24:42

对于稀疏数据，您当然应该使用稀疏向量而不是密集向量。

而不是存储所有的零，你只保留非零的值。

一个典型的数据模型(请参阅文献中的替代品)是简单地使用一个元组列表(i，v)，其中i是列索引，v是一个非零值。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46429206

复制

相似问题

问在稀疏数据的情况下，如何更快地训练LDA(潜在的Dirichlet分配)并预测新的文档？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在稀疏数据的情况下，如何更快地训练LDA(潜在的Dirichlet分配)并预测新的文档？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在稀疏数据的情况下，如何更快地训练LDA(潜在的Dirichlet分配)并预测新的文档？
EN