首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >平衡列车组预测不平衡预测集

平衡列车组预测不平衡预测集
EN

Data Science用户
提问于 2016-09-01 07:36:40
回答 3查看 1.7K关注 0票数 6

对不平衡集进行分类预测分析的方法之一是对多数类进行欠采样(其他方法包括:对多数类进行欠采样,合成新的少数类.)。

下面假设我们使用这些解决方案中的任何一个,然后用新生成的数据集来训练算法。这个经过训练的算法是否有助于预测来自这个系统的进一步数据,而这个系统通常是不平衡的?

或者说,为了使它更加具体,是否有可能在一般情况下训练一个具有平衡训练集的模型,以便我们能够有效地预测一个不平衡的预测集?或者两者都应该是平衡的还是不平衡的?

谢谢!

塞尔吉

EN

回答 3

Data Science用户

发布于 2016-09-01 07:51:04

这是可能的。考虑KNN。当你训练一个模型时,它实质上是“记住”训练集。现在,当您使用模型来预测一个不平衡的数据集时,模型只是从内存中读取,所以没有问题。

例如,假设您训练的模型的年龄组分布一致,从10岁到80岁不等。现在你有了一个测试集,每个人都在70到80岁之间。KNN只需找出你的老年人的邻居(比如在你的训练数据中有60-80个老年人),然后计算一个加权平均值。

使用平衡训练集来预测不平衡的测试集并不是非常有挑战性的。相反,挑战要大得多。

票数 1
EN

Data Science用户

发布于 2016-09-01 09:44:03

当您在培训期间最小化的损失函数与用于评估的度量不同时,类平衡是必要的。问题的答案是:

是否有可能在一般情况下训练一个具有平衡训练集的模型,以便有效地预测一个不平衡的预测集?

取决于损失函数的选择和“有效性”的度量(评价指标)。如果两个类在评估中同等重要的话(例如。而在没有损失功能的情况下,平衡会导致性能的提高。

票数 1
EN

Data Science用户

发布于 2016-09-01 14:03:32

这个问题的答案与你正在处理的实际问题非常相关。我花了三年的时间来修改SMOTE算法,用它来处理一个问题,而在接下来的两年里,我试图设计一个有偏见的分类器来处理另一个问题。事实上,在学术界,我们关心的是平均精度,而不是整体精度。这里,您应该处理不平衡的数据问题。但实际上,在很多情况下,你会发现他们关心的是整体的准确性,而不是平均的准确性。当丢失任何样品的成本是相同的,那么它就做自。如果您没有任何考虑,那么问题是:我是否可以最大化平均和整体的准确性?这取决于您正在使用的特性。在某些情况下,它们丢失少数样本的代价较高,那么就需要设计一个偏颇的分类器。对你的问题的回答是:如果平衡数据可以最大化平均和整体的准确性,那么最好这样做。如果平衡数据不能使两者最大化,那么您就需要考虑问题需求。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/13792

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档