我一直读到朴素的贝叶斯比许多其他的ML算法需要更少的特性。但是,使用朴素的Bayes模型,获得好的结果(90%的准确性)所需要的最小特性是多少呢?我知道这个问题没有客观的答案--这取决于你的确切特征,尤其是你想学什么--但我正在寻找一个关于这个问题的大致数字答案。
我之所以问这个问题,是因为我有一个拥有大约280个特性的数据集,并且想了解这是否太少,不能与朴素的贝叶斯一起使用。(我尝试在我的数据集上运行朴素贝叶斯,虽然我获得了86%的准确率,但我不能相信这个数字,因为我的数据是不平衡的,我相信这可能是高精度的原因。我目前正试图解决这个问题。)
如果是相关的话:我正在研究的确切问题是为维基百科文章生成时间标签。很多时候,维基百科文章中的信息框包含一个日期。然而,这一日期多次出现在文章的文本中,但在信息框中却没有出现。我想使用朴素的贝叶斯来识别我们在文章文本中找到的所有日期中应该放在信息框中的日期。每次我找到一个带有日期的句子时,我都会把它变成一个特征向量--列出我在其中找到的数字段落,这个特定日期出现在文章中的次数,等等。我把自己局限在维基百科文章的一小部分--只是苹果文章--因此,我只有280个左右的功能。知道这些数据是否足够吗?
谢谢!
发布于 2021-05-07 13:56:57
获得最小精度的特征数是一个经验问题,这将取决于具体问题。在某些问题上,单个特性会导致“足够好”的性能,还有其他问题,在这些问题中,没有足够的特性。
朴素贝叶斯确实为每个类提供了最具预测性的特性。因此,可以通过添加特性来计算性能的提高。
对于您的具体问题,更多的功能(更多的文本信号)和更多的观察(更多的维基百科)将提高准确性。
https://datascience.stackexchange.com/questions/87248
复制相似问题