首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用text2vec的困惑问题

使用text2vec的困惑问题
EN

Stack Overflow用户
提问于 2019-10-24 02:12:25
回答 1查看 68关注 0票数 0

正如我经常提到的,我正在使用text2vec处理23万个文档。我正在尝试使用perplexity为我的文档术语矩阵找到最佳主题编号。当我一个接一个地使用它时,它工作得很好,但是当我尝试使用一个循环来获得从2到25的范围时,它不能工作,我不知道为什么,有人能告诉我哪里出了问题吗?

代码语言:javascript
复制
##Using perplexity for hold out set
t1 <- Sys.time()
perplex <- c()
for (i in 2:25){

  set.seed(17)

    lda_model <- LDA$new(n_topics = i)
    doc_topic_distr <- lda_model$fit_transform(x = dtm,  progressbar = F)

    perplex[i]  <- text2vec::perplexity(sample.dtm, topic_word_distribution = 
    lda_model$topic_word_distribution, doc_topic_distribution = new_doc_topic_distr) 
}
print(difftime(Sys.time(), t1, units = 'sec'))
代码语言:javascript
复制
INFO [2019-10-23 13:01:43] early stopping at 80 iteration
INFO [2019-10-23 13:01:45] early stopping at 20 iteration
INFO [2019-10-23 13:01:53] early stopping at 70 iteration
INFO [2019-10-23 13:01:55] early stopping at 20 iteration
Error in text2vec::perplexity(sample.dtm, topic_word_distribution = lda_model$topic_word_distribution,  : 
  nrow(topic_word_distribution) == ncol(doc_topic_distribution) is not TRUE
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-10-27 19:01:49

这是因为您需要在循环内重新计算new_doc_topic_distr

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58528772

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档