我在R中使用Quanteda,并创建了语料库和dfm。但是,我注意到dfm和语料库包含的文档比原始文件少。如果有人能让我知道为什么会发生这种情况以及如何修复,我将不胜感激。谢谢
发布于 2019-01-31 19:50:12
您可以尝试像这样明确地提到docid_field和text_field:
data_corpus = corpus(x = data,docid_field = "doc_id", text_field = "text")其中doc_id和text是数据帧data中的列。
然后利用qunateda软件包中的dfm函数计算文档特征矩阵
data_dfm = dfm(data_corpus)https://stackoverflow.com/questions/50607103
复制相似问题