首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我们如何利用多项朴素贝叶斯的TFIDF向量?

我们如何利用多项朴素贝叶斯的TFIDF向量?
EN

Stack Overflow用户
提问于 2017-04-05 16:55:48
回答 1查看 5.8K关注 0票数 2

比方说,我们使用TFIDF转换将文档编码成连续值的特性。

我们现在如何使用它作为对朴素贝叶斯分类器的输入?

贝努利朴素-贝叶斯已经过时了,因为我们的功能不再是二进制的了。

似乎我们也不能使用多项朴素贝叶斯,因为这些值是连续的,而不是绝对的。

作为另一种选择,用高斯朴素贝叶斯代替它是否合适?在高斯分布假设下,TFIDF向量是否能很好地支持?

MultionomialNB的sci学习文档建议如下:

多项式朴素贝叶斯分类器适用于离散特征的分类(如文本分类中的单词计数)。多项式分布通常需要整数特征数。然而,在实践中,分数计数,如tf-以色列国防军也可能起作用。

难道根本不可能在MultinomialNB中使用小数值吗?

据我所知,似然函数本身假定我们正在处理离散计数(因为它处理计数/阶乘)。

TFIDF的价值观将如何与这个公式一起工作?

EN

回答 1

Stack Overflow用户

发布于 2017-12-05 11:17:17

严格来说你是对的。(传统的)多项式注记模型将文档D看作词汇量大小的特征向量x,其中每个元素xi是I文档D的计数。根据定义,该向量x服从多项式分布,从而得到了多元素分类函数。

当使用TF权值代替项计数时,我们的特征向量(很可能)不再遵循多项式分布,因此分类函数在理论上不再有很好的基础。然而,它确实证明tf-以色列国防军的重量而不是计数更好。

TFIDF的价值观将如何与这个公式一起工作?

以完全相同的方式,除了特征向量x现在是一个tf-国防军权重的向量,而不是计数。

您还可以查看在学习tfidf-向量器中实现的次线性tf-国防军加权方案。在我自己的研究中,我发现这个词表现得更好:它使用了词频的对数版本。这样做的想法是,当查询项在doc中发生20次时。A和1次在医生。b,医生。A(可能)不应该被认为是20倍的重要,但更有可能是日志(20)的重要性。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43237286

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档