文章/答案/技术大牛

发布

社区首页 >问答首页 >使用tf-idf时使用R和tm的新数据

问使用tf-idf时使用R和tm的新数据
EN

Stack Overflow用户

提问于 2017-07-03 07:23:59

回答 1查看 330关注 0票数 0

使用R和tm，我已经加载和清理了一堆文本文档，并将它们制成语料库。在那之后，我使用tf-idf构建了他们的DTM，我可以将其用于所有类型的分类聚类算法。到现在为止还好。

现在，让我们假设我有一个新文档，并尝试计算它到语料库中文档的距离。当然，我需要将我应用于原始集合的所有变换应用于它。但是我不知道如何计算新文档的tf-idf向量，因为tf-idf依赖于整个集合，而不是单个文档。将新文档添加到语料库并重新计算其tf-idf DTM不能正常工作:不仅效率低下，而且每个新文档都会碰上已经看到的文档的值，这将改变我可能将它们作为训练集运行的任何聚类分类算法的结果。

因此，我的问题是，如何使用R和tm计算新文档的tf-idf向量，并使用它来计算新文档到训练语料库中每个文档的距离，而不重新计算所有文档的tf-idf？

提前谢谢。

tf-idf

text-classification

回答 1

Stack Overflow用户

发布于 2017-07-14 15:27:10

首先，您可以在训练脚本中计算idf并将其保存为R obj。

idf = log2(nDocs(dtm)/col_sums(dtm > 0))

然后，在评分脚本中，您可以加载此idf，并使用以下逻辑归一化您的评分dtm

for(i in 1:length(dtmscore$i)){dtmscore$v[i] = idf[dtmscore$j[i]] * dtmscore$v[i] }

我希望这能帮到你!

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44876031

复制

相似问题

问使用tf-idf时使用R和tm的新数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用tf-idf时使用R和tm的新数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用tf-idf时使用R和tm的新数据
EN