文章/答案/技术大牛

发布

社区首页 >问答首页 >我们如何利用多项朴素贝叶斯的TFIDF向量？

问我们如何利用多项朴素贝叶斯的TFIDF向量？
EN

Stack Overflow用户

提问于 2017-04-05 16:55:48

回答 1查看 5.8K关注 0票数 2

比方说，我们使用TFIDF转换将文档编码成连续值的特性。

我们现在如何使用它作为对朴素贝叶斯分类器的输入？

贝努利朴素-贝叶斯已经过时了，因为我们的功能不再是二进制的了。

似乎我们也不能使用多项朴素贝叶斯，因为这些值是连续的，而不是绝对的。

作为另一种选择，用高斯朴素贝叶斯代替它是否合适？在高斯分布假设下，TFIDF向量是否能很好地支持？

MultionomialNB的sci学习文档建议如下：

多项式朴素贝叶斯分类器适用于离散特征的分类(如文本分类中的单词计数)。多项式分布通常需要整数特征数。然而，在实践中，分数计数，如tf-以色列国防军也可能起作用。

难道根本不可能在MultinomialNB中使用小数值吗？

据我所知，似然函数本身假定我们正在处理离散计数(因为它处理计数/阶乘)。

TFIDF的价值观将如何与这个公式一起工作？

scikit-learn

tf-idf

naivebayes

回答 1

Stack Overflow用户

发布于 2017-12-05 11:17:17

严格来说你是对的。(传统的)多项式注记模型将文档D看作词汇量大小的特征向量x，其中每个元素xi是I文档D的计数。根据定义，该向量x服从多项式分布，从而得到了多元素分类函数。

当使用TF权值代替项计数时，我们的特征向量(很可能)不再遵循多项式分布，因此分类函数在理论上不再有很好的基础。然而，它确实证明tf-以色列国防军的重量而不是计数更好。

TFIDF的价值观将如何与这个公式一起工作？

以完全相同的方式，除了特征向量x现在是一个tf-国防军权重的向量，而不是计数。

您还可以查看在学习tfidf-向量器中实现的次线性tf-国防军加权方案。在我自己的研究中，我发现这个词表现得更好:它使用了词频的对数版本。这样做的想法是，当查询项在doc中发生20次时。A和1次在医生。b，医生。A(可能)不应该被认为是20倍的重要，但更有可能是日志(20)的重要性。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43237286

复制

相似问题

问我们如何利用多项朴素贝叶斯的TFIDF向量？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我们如何利用多项朴素贝叶斯的TFIDF向量？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我们如何利用多项朴素贝叶斯的TFIDF向量？
EN