我遇到了一个支持向量机的例子,但我不明白。如果有人能解释一下这个预测是如何运作的,我将不胜感激。请参见下文的解释:
数据集具有10,000个和5属性 (Sepal Width、Sepal Length、Petal Width、Petal Length、Label)。如果标签属于I.setosa类,则获取negative,如果属于其他类,则获取negative。
有已知结果的6000观测(即它们属于I.setosa类,因此它们对label属性是正的)。其余的4000的标签是未知的,因此假定标签为负值。6000观测和2500随机选择了其余的4000的观测数据,组成了10倍交叉验证的集合。然后利用支持向量机(10倍交叉验证)在8500观测上进行机器学习,绘制了ROC。
我们在这里预测什么?该集合具有6000观测值(),其值已经知道。剩下的2500是如何获得负面标签的?当使用支持向量机时,一些正观测值会得到负预测。这个预言对我来说毫无意义。为什么1500的观测结果不包括。
我希望我的解释是清楚的。如果我没有解释清楚的话,请告诉我。
发布于 2013-06-20 12:21:25
我认为这是一个语义问题:你把4000份样本称为“未知”和“否定”--其中哪一个是关键的区别。
如果4000个样本的标签是真正未知的,那么我会使用6000个标签样本c.f来做一个1类支持向量机。验证如下。然后,通过测试N=4000集来评估它们是否属于setosa类,从而产生预测。
如果相反,我们有6000 setosa和4000 (已知的)非setosa,我们可以在这个数据c.f的基础上构造一个二进制分类器。下面的验证,然后使用它来预测在任何其他可用的非标签数据的setosa和non。
验证:通常,作为模型构建过程的一部分,您将只获取标记培训数据的一个子集,并使用它来配置模型。对于未使用的子集,可以将模型应用于数据(忽略标签),并将模型预测的内容与真正的标签进行比较,以评估错误率。这既适用于1类情况,也适用于上述2类情况.
摘要:如果您的所有数据都有标签,那么作为模型验证过程的一部分,通常仍然会对其中的一个子集(忽略已知的标签)进行预测。
发布于 2013-12-06 15:01:38
支持向量机分类器会被训练来判断一个新的(未知的)实例是否是I.Setosa的一个实例。换句话说,您是在预测新的、未标记的实例是否为I.Setosa。
您可能发现了错误的分类结果,可能是因为您的培训数据包含了更多的阳性案例而不是阴性案例。而且,有一些误差是很常见的。
总结:你的支持向量机分类器学会了如何识别I.Setosa实例,但是它提供的非I.Setosa实例的例子太少,这可能会给您提供一个有偏见的模型。
https://stackoverflow.com/questions/17161458
复制相似问题