文章/答案/技术大牛

发布

问机器学习-支持向量机
EN

Stack Overflow用户

提问于 2013-06-18 05:54:20

回答 2查看 517关注 0票数 1

我遇到了一个支持向量机的例子，但我不明白。如果有人能解释一下这个预测是如何运作的，我将不胜感激。请参见下文的解释：

数据集具有10,000个和5属性 (Sepal Width、Sepal Length、Petal Width、Petal Length、Label)。如果标签属于I.setosa类，则获取negative，如果属于其他类，则获取negative。

有已知结果的6000观测(即它们属于I.setosa类，因此它们对label属性是正的)。其余的4000的标签是未知的，因此假定标签为负值。6000观测和2500随机选择了其余的4000的观测数据，组成了10倍交叉验证的集合。然后利用支持向量机(10倍交叉验证)在8500观测上进行机器学习，绘制了ROC。

我们在这里预测什么？该集合具有6000观测值()，其值已经知道。剩下的2500是如何获得负面标签的？当使用支持向量机时，一些正观测值会得到负预测。这个预言对我来说毫无意义。为什么1500的观测结果不包括。

我希望我的解释是清楚的。如果我没有解释清楚的话，请告诉我。

machine-learning

svm

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-06-20 12:21:25

我认为这是一个语义问题:你把4000份样本称为“未知”和“否定”--其中哪一个是关键的区别。

如果4000个样本的标签是真正未知的，那么我会使用6000个标签样本c.f来做一个1类支持向量机。验证如下。然后，通过测试N=4000集来评估它们是否属于setosa类，从而产生预测。

如果相反，我们有6000 setosa和4000 (已知的)非setosa，我们可以在这个数据c.f的基础上构造一个二进制分类器。下面的验证，然后使用它来预测在任何其他可用的非标签数据的setosa和non。

验证:通常，作为模型构建过程的一部分，您将只获取标记培训数据的一个子集，并使用它来配置模型。对于未使用的子集，可以将模型应用于数据(忽略标签)，并将模型预测的内容与真正的标签进行比较，以评估错误率。这既适用于1类情况，也适用于上述2类情况.

摘要:如果您的所有数据都有标签，那么作为模型验证过程的一部分，通常仍然会对其中的一个子集(忽略已知的标签)进行预测。

票数 1

Stack Overflow用户

发布于 2013-12-06 15:01:38

支持向量机分类器会被训练来判断一个新的(未知的)实例是否是I.Setosa的一个实例。换句话说，您是在预测新的、未标记的实例是否为I.Setosa。

您可能发现了错误的分类结果，可能是因为您的培训数据包含了更多的阳性案例而不是阴性案例。而且，有一些误差是很常见的。

总结:你的支持向量机分类器学会了如何识别I.Setosa实例，但是它提供的非I.Setosa实例的例子太少，这可能会给您提供一个有偏见的模型。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17161458

复制

相似问题

问机器学习-支持向量机
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习-支持向量机EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习-支持向量机
EN