比方说,我们使用TFIDF转换将文档编码成连续值的特性。
我们现在如何使用它作为对朴素贝叶斯分类器的输入?
贝努利朴素-贝叶斯已经过时了,因为我们的功能不再是二进制的了。
似乎我们也不能使用多项朴素贝叶斯,因为这些值是连续的,而不是绝对的。
作为另一种选择,用高斯朴素贝叶斯代替它是否合适?在高斯分布假设下,TFIDF向量是否能很好地支持?
MultionomialNB的sci学习文档建议如下:
多项式朴素贝叶斯分类器适用于离散特征的分类(如文本分类中的单词计数)。多项式分布通常需要整数特征数。然而,在实践中,分数计数,如tf-以色列国防军也可能起作用。
难道根本不可能在MultinomialNB中使用小数值吗?
据我所知,似然函数本身假定我们正在处理离散计数(因为它处理计数/阶乘)。
TFIDF的价值观将如何与这个公式一起工作?
发布于 2017-12-05 11:17:17
严格来说你是对的。(传统的)多项式注记模型将文档D看作词汇量大小的特征向量x,其中每个元素xi是I文档D的计数。根据定义,该向量x服从多项式分布,从而得到了多元素分类函数。
当使用TF权值代替项计数时,我们的特征向量(很可能)不再遵循多项式分布,因此分类函数在理论上不再有很好的基础。然而,它确实证明tf-以色列国防军的重量而不是计数更好。
TFIDF的价值观将如何与这个公式一起工作?
以完全相同的方式,除了特征向量x现在是一个tf-国防军权重的向量,而不是计数。
您还可以查看在学习tfidf-向量器中实现的次线性tf-国防军加权方案。在我自己的研究中,我发现这个词表现得更好:它使用了词频的对数版本。这样做的想法是,当查询项在doc中发生20次时。A和1次在医生。b,医生。A(可能)不应该被认为是20倍的重要,但更有可能是日志(20)的重要性。
https://stackoverflow.com/questions/43237286
复制相似问题