首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >-sampling教授模型错误的分布?

-sampling教授模型错误的分布?
EN

Data Science用户
提问于 2020-08-31 17:22:21
回答 1查看 38关注 0票数 0

TLDR:在培训阶段,低采样/过采样会导致模型的错误分布并对准确性产生不利影响吗?

让我们假设您想要训练一个分类器来区分A类和B类,不幸的是,A和B的人口分布在[1:100]的比率上是不平衡的。因此,您使用过采样或过采样,以便培训和验证集有效地实现A和B之间的[1:1]比率,您对测试集不做任何事情。成套教材和培训结果的分布情况见下表:

代码语言:javascript
复制
           Train  Val    Test
A Dist.    0.5    0.5    0.99
B Dist.    0.5    0.5    0.01
Accuracy   1.0    0.999  0.85

你现在已经训练了一个模型,它比“分类为A”的方法在总体上表现更差。过度抽样或过抽样是否教一个模型错误的分布,导致它过于自信地预测少数民族阶级?如果没有-在这个例子中会发生什么?

EN

回答 1

Data Science用户

发布于 2020-08-31 19:52:00

是的,教授模型期望均衡的分布肯定会影响测试集的结果。过采样少数类以平衡分布将使分类器更有可能预测给定的例子是少数类。每一次梯度下降的迭代都会将模型推到一个位置,其中大约一半的损失是由来自少数类的示例造成的,这不是测试模型时的情况。有几件事我已经看到,试图克服这个问题;焦损是一个例子,其中容易分类的例子(预测模型有很大的信心)对损失的贡献比难以分类的例子少。我所使用的另一种方法是在人工平衡的训练集上训练模型,然后冻结除最后一层(或最后几层)以外的所有权重,并根据真实分布对模型进行细化。这通常会提高模型的精度。

在这种情况下,准确性是一个误导性的指标。正如您所注意到的,使用平衡训练集训练的模型表现不如A类模型,尽管第二种模型的准确性更高,预测没有意义,也不能反映数据的本质。我鼓励您检查这两种模型的精确性和召回性,以便了解模型在哪里做得不好。

此外,我认为您的验证分割应该具有与测试集相同的统计信息。当验证数据不反映测试数据时,您实际上是在优化模型,以达到与实际需要不同的目标。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/81046

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档