在机器学习分类方面,LDA与朴素贝叶斯的优缺点是什么?
我知道一些区别,比如朴素贝叶斯假设变量是独立的,而LDA是高斯类条件密度模型,但是我不知道什么时候使用LDA,什么时候使用NB取决于具体情况?
发布于 2017-10-06 13:34:33
这两种方法都非常简单,因此很难说哪种方法会更好地工作。这通常是更快的尝试和计算测试的准确性。但下面列出的特征通常表明某些方法不太可能产生好的效果。这一切都归结为数据。
朴素贝叶斯
朴素贝叶斯分类器的第一个缺点是特征无关假设。在实践中,数据是多维的,不同的特征是相互关联的.正因为如此,结果可能会非常糟糕,尽管并不总是很明显。如果您确实知道功能是依赖的(例如,图像的像素),那么不要指望朴素的Bayes会炫耀。
另一个问题是数据稀缺性。对于特征的任何可能值,用频率估计法估计一个可能性。这可能导致概率接近0或1,这反过来导致数值不稳定和更坏的结果。
连续特性出现了第三个问题。朴素贝叶斯分类器只处理范畴变量,因此需要将连续特征转换为离散特征,从而丢弃大量的信息。如果数据中有一个连续变量,这是反对朴素贝叶斯的有力标志。
线性判别分析
如果类是不平衡的,即不同类中的对象数量有很大的不同,则LDA不能很好地工作。解决方案是获取更多的数据,这可能非常容易,也可能几乎不可能,这取决于任务。
LDA的另一个缺点是它不适用于非线性问题,例如分离甜甜圈形状的点云,但是在高维空间中很难立即发现它。通常,当你看到LDA不起作用后,你就会明白这一点,但是如果数据是非常非线性的,这是一个强烈的反对LDA的信号。
此外,LDA对过度拟合的很敏感,需要仔细的验证/测试。
https://stackoverflow.com/questions/46396552
复制相似问题