在支持向量机中,我知道在数据集中的每个点计算一个基函数是不可能的。然而,由于所谓的内核技巧,找到这个最优解是可能的.
对于这个问题,其他答案使用高级的数学和统计术语来正确地回答这个问题(我认为),这使得一般的数据科学用户无法访问它。有人能发布一个“大图”描述(即,不一定是彻底的或技术上完整的)来说明内核技巧是什么以及它是如何工作的吗?
发布于 2017-03-12 16:08:30
内核技巧基于一些概念:您有一个数据集,例如,在笛卡儿平面上表示的两类2D数据。它不是线性可分的,因此,例如,支持向量机无法找到分隔这两个类的直线。现在,你能做的是将这些数据投影到一个高维空间中,例如3D,它可以被一个平面线性地除以。

现在,ML中的一个基本概念是点积。您经常使用一些权重w,模型的参数,对数据样本的特性进行点积。不用在3D中显式地进行数据投影,然后对点积进行评估,您可以找到一个内核函数来简化这项工作,只需在投影空间中做点积,而不需要实际计算投影,然后再计算点积。这使您能够找到一个复杂的非线性边界,该边界能够分离数据集中的类。这是一个非常直观的解释。
发布于 2017-03-14 20:55:25
https://datascience.stackexchange.com/questions/17536
复制相似问题