我想试验一下,如果在一个DFM中同时包含单字和双字,是否可以改善我的文档分类。我想在一个DFM中同时创建单字和双字。从那里,我可以得到考虑单字和双字的TF-IDF加权DFM。有可能,我可以分别创建unigram和bigram dfms,然后我可以将它们合并。但是,我想知道quanteda是否有更有效的方法来做到这一点。我很感谢你的回复。
发布于 2021-03-09 02:34:48
从quanteda页面上拿到的。它可以像这样工作。
toks_skip <- tokens_ngrams(toks, n = 1:2)https://stackoverflow.com/questions/66044497
复制相似问题