首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >集成学习、多分类器系统

集成学习、多分类器系统
EN

Stack Overflow用户
提问于 2012-03-02 16:27:53
回答 1查看 1.8K关注 0票数 4

我试图使用MCS (多分类器系统)对有限的数据做一些更好的工作,即变得更精确。

我目前正在使用K-均值聚类,但可以选择使用FCM (Fuzzy Means),即数据被聚成组(集群),数据可以代表任何颜色。我首先对数据进行预处理和归一化后对数据进行聚类,得到一些不同的聚类。然后,我继续使用聚类作为Bayes分类器的数据,每个聚类表示一个不同的颜色,Bayes分类器被训练,然后将来自这些分类器的数据输入单独的Bayes分类器。每个Bayes分类器只训练一种颜色。如果我们以3- 10为蓝色,13 - 20为红色,0-3之间的光谱为白色,直至1.5,则蓝色逐渐由1.5 -3变为蓝色,而蓝色至红色的光谱相同。

我想知道的是,如何或什么样的聚合方法(如果这是您将要使用的)可以被应用,这样Bayes分类器可以变得更强,它是如何工作的?聚合方法是否已经知道答案,或者是人类交互来纠正输出,然后这些答案返回到Bayes训练数据中?还是两者的结合?看看Bootstrap聚合,它涉及到集合投票中的每个模型都具有相同的权重,所以在这个特定的例子中,我不太确定我是否会使用套袋作为我的聚合方法?然而,增强包括通过训练每个新的模型实例来逐步建立一个集合,以强调以前的模型错误分类的训练实例,不确定这是否是一个更好的选择,因为我不确定它是如何在新实例的基础上逐步建立起来的?最后一种是贝叶斯模型平均,这是一种集合技术,它试图通过从假设空间中抽取假设并结合它们来逼近Bayes最优分类器,但是完全不确定如何从搜索空间中抽取假设?

我知道,通常你会用一种竞争的方法在两种分类算法之间来回跳,一种说是,一种说也许可以应用加权,如果它正确的话,你就能从这两个分类器中得到最好的结果,但为了保留起见,我不想要一种竞争性的方法。

另一个问题是,将这两种方法结合在一起是否有益,我知道我提供的示例非常原始,可能不适用于该示例,但它是否有益于更复杂的数据。

EN

回答 1

Stack Overflow用户

发布于 2012-10-10 21:36:35

关于您所采用的方法,我有一些问题:

  1. K-意思是在每个集群中放置离它最近的点。然后使用输出数据训练分类器。我认为分类器可能优于聚类隐式分类,但必须考虑到每个聚类中的样本数。例如,如果您的训练数据在聚类后有typeA(60%)、typeB(20%)、typeC(20%);您的分类器将更喜欢向typeA提取模糊样本,以获得较少的分类错误。
  2. K-的意思是取决于您从对象中获取的“坐标”/“特征”。如果使用不同类型对象混合的特性,则K-均值性能将下降。从特征向量中删除这类特征可能会提高您的结果。
  3. 表示您想要分类的对象的“特征”/“坐标”可以用不同的单位度量。这个事实可能会影响您的聚类算法,因为您正在通过聚类错误函数隐式地设置它们之间的单元转换。最后一组集群是通过使用错误函数选择多个集群试验(在不同的集群初始化时获得的)。因此,将对特征向量的不同坐标(可能引入隐式转换因子)进行隐式比较。

考虑到这三点,您可能会通过添加预处理阶段来提高算法的总体性能。例如,在计算机视觉应用中的目标识别中,从图像中获取的大部分信息仅来自图像中的边框。没有使用所有的颜色信息和部分纹理信息。从图像处理中减去边框,得到定向梯度(HOG)描述符的直方图。这个描述符返回“特性”/“坐标”,以便更好地分离对象,从而提高分类(对象识别)性能。理论上,描述符会抛出图像中包含的信息。然而,它们具有两个主要优点:(a)分类器可以处理较低维数的数据;(b)根据测试数据计算的描述符可以更容易地与训练数据匹配。

在你的例子中,我建议你采取类似的方法来提高你的准确性:

algorithm

  • Take

  • 为您的聚类vector

  • Always提供了更丰富的特性,可以利用该领域的先验知识来决定您应该从特性vector

  • Always中添加和删除哪些特性,并考虑获取标记数据的可能性,以便有监督的学习算法可以应用于

希望这能帮上忙..。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9536786

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档