首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在稀疏数据的情况下,如何更快地训练LDA(潜在的Dirichlet分配)并预测新的文档?

在稀疏数据的情况下,如何更快地训练LDA(潜在的Dirichlet分配)并预测新的文档?
EN

Stack Overflow用户
提问于 2017-09-26 14:29:17
回答 1查看 322关注 0票数 1
  1. 关于培训LDA: 当我们试图实现LDA时,我们需要构造一个单词-文档矩阵,但是这个矩阵是稀疏的数据,因为我们的令牌字典非常大(大约百万字),而且文档有一小组令牌(~ 1000 - 10000字),所以在words documents矩阵中,它有这么多0值,并且训练模型需要更长的时间。那么我们怎样才能做得更快呢?
  2. 关于预测新文档的: 经过培训,现在我们有了一个新的LDA模型,因此我们可以使用它来预测哪些主题具有新的文档。但在向模型提供新文档之前,我们需要将其转换为单词向量,其向量长度将是我们的字典长度(数百万字)。因此,它将有许多零值,实际上,我们的成本时间是由向量长度增加的。

那么,文档-词矩阵是实现LDA的有效方法吗?我们能有其他更好的方法吗?我需要一些关于我的项目的建议,所以请帮助

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-09-26 19:24:42

对于稀疏数据,您当然应该使用稀疏向量而不是密集向量。

而不是存储所有的零,你只保留非零的值。

一个典型的数据模型(请参阅文献中的替代品)是简单地使用一个元组列表(i,v),其中i是列索引,v是一个非零值。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46429206

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档