文章/答案/技术大牛

发布

社区首页 >问答首页 >平衡列车组预测不平衡预测集

问平衡列车组预测不平衡预测集
EN

Data Science用户

提问于 2016-09-01 07:36:40

回答 3查看 1.7K关注 0票数 6

对不平衡集进行分类预测分析的方法之一是对多数类进行欠采样(其他方法包括:对多数类进行欠采样，合成新的少数类.)。

下面假设我们使用这些解决方案中的任何一个，然后用新生成的数据集来训练算法。这个经过训练的算法是否有助于预测来自这个系统的进一步数据，而这个系统通常是不平衡的？

或者说，为了使它更加具体，是否有可能在一般情况下训练一个具有平衡训练集的模型，以便我们能够有效地预测一个不平衡的预测集？或者两者都应该是平衡的还是不平衡的？

谢谢!

塞尔吉

classification

predictive-modeling

class-imbalance

回答 3

Data Science用户

发布于 2016-09-01 07:51:04

这是可能的。考虑KNN。当你训练一个模型时，它实质上是“记住”训练集。现在，当您使用模型来预测一个不平衡的数据集时，模型只是从内存中读取，所以没有问题。

例如，假设您训练的模型的年龄组分布一致，从10岁到80岁不等。现在你有了一个测试集，每个人都在70到80岁之间。KNN只需找出你的老年人的邻居(比如在你的训练数据中有60-80个老年人)，然后计算一个加权平均值。

使用平衡训练集来预测不平衡的测试集并不是非常有挑战性的。相反，挑战要大得多。

票数 1

Data Science用户

发布于 2016-09-01 09:44:03

当您在培训期间最小化的损失函数与用于评估的度量不同时，类平衡是必要的。问题的答案是：

是否有可能在一般情况下训练一个具有平衡训练集的模型，以便有效地预测一个不平衡的预测集？

取决于损失函数的选择和“有效性”的度量(评价指标)。如果两个类在评估中同等重要的话(例如。而在没有损失功能的情况下，平衡会导致性能的提高。

票数 1

Data Science用户

发布于 2016-09-01 14:03:32

这个问题的答案与你正在处理的实际问题非常相关。我花了三年的时间来修改SMOTE算法，用它来处理一个问题，而在接下来的两年里，我试图设计一个有偏见的分类器来处理另一个问题。事实上，在学术界，我们关心的是平均精度，而不是整体精度。这里，您应该处理不平衡的数据问题。但实际上，在很多情况下，你会发现他们关心的是整体的准确性，而不是平均的准确性。当丢失任何样品的成本是相同的，那么它就做自。如果您没有任何考虑，那么问题是:我是否可以最大化平均和整体的准确性？这取决于您正在使用的特性。在某些情况下，它们丢失少数样本的代价较高，那么就需要设计一个偏颇的分类器。对你的问题的回答是:如果平衡数据可以最大化平均和整体的准确性，那么最好这样做。如果平衡数据不能使两者最大化，那么您就需要考虑问题需求。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/13792

复制

相似问题

问平衡列车组预测不平衡预测集
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问平衡列车组预测不平衡预测集EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问平衡列车组预测不平衡预测集
EN