首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >机器学习-支持向量机

机器学习-支持向量机
EN

Stack Overflow用户
提问于 2013-06-18 05:54:20
回答 2查看 517关注 0票数 1

我遇到了一个支持向量机的例子,但我不明白。如果有人能解释一下这个预测是如何运作的,我将不胜感激。请参见下文的解释:

数据集具有10,000个5属性 (Sepal WidthSepal LengthPetal WidthPetal LengthLabel)。如果标签属于I.setosa类,则获取negative,如果属于其他类,则获取negative

有已知结果的6000观测(即它们属于I.setosa类,因此它们对label属性是正的)。其余的4000的标签是未知的,因此假定标签为负值。6000观测2500随机选择了其余的4000的观测数据,组成了10倍交叉验证的集合。然后利用支持向量机(10倍交叉验证)在8500观测上进行机器学习,绘制了ROC

我们在这里预测什么?该集合具有6000观测值(),其值已经知道。剩下的2500是如何获得负面标签的?当使用支持向量机时,一些正观测值会得到负预测。这个预言对我来说毫无意义。为什么1500的观测结果不包括

我希望我的解释是清楚的。如果我没有解释清楚的话,请告诉我。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-06-20 12:21:25

我认为这是一个语义问题:你把4000份样本称为“未知”和“否定”--其中哪一个是关键的区别。

如果4000个样本的标签是真正未知的,那么我会使用6000个标签样本c.f来做一个1类支持向量机。验证如下。然后,通过测试N=4000集来评估它们是否属于setosa类,从而产生预测。

如果相反,我们有6000 setosa和4000 (已知的)非setosa,我们可以在这个数据c.f的基础上构造一个二进制分类器。下面的验证,然后使用它来预测在任何其他可用的非标签数据的setosa和non。

验证:通常,作为模型构建过程的一部分,您将只获取标记培训数据的一个子集,并使用它来配置模型。对于未使用的子集,可以将模型应用于数据(忽略标签),并将模型预测的内容与真正的标签进行比较,以评估错误率。这既适用于1类情况,也适用于上述2类情况.

摘要:如果您的所有数据都有标签,那么作为模型验证过程的一部分,通常仍然会对其中的一个子集(忽略已知的标签)进行预测。

票数 1
EN

Stack Overflow用户

发布于 2013-12-06 15:01:38

支持向量机分类器会被训练来判断一个新的(未知的)实例是否是I.Setosa的一个实例。换句话说,您是在预测新的、未标记的实例是否为I.Setosa。

您可能发现了错误的分类结果,可能是因为您的培训数据包含了更多的阳性案例而不是阴性案例。而且,有一些误差是很常见的。

总结:你的支持向量机分类器学会了如何识别I.Setosa实例,但是它提供的非I.Setosa实例的例子太少,这可能会给您提供一个有偏见的模型。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17161458

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档