我使用定义ngram_vectorizer = CountVectorizer(binary=True)和ngram_vectorizer = CountVectorizer(binary=False)来运行我的脚本
混淆矩阵的结果对于两者来说是不同的。可以帮助我理解二进制是做什么的?
发布于 2019-12-07 00:21:42
如果您设置了binary=True,那么CountVectorizer将不再使用术语/标记的计数。如果标记存在于文档中,则为1;如果不存在,则无论其出现频率如何,均为0。因此,您将只处理二进制值。默认情况下,为binary=False。
https://stackoverflow.com/questions/56773265
复制相似问题