首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对数据进行采样,使分布得以保留

对数据进行采样,使分布得以保留
EN

Stack Overflow用户
提问于 2018-04-24 23:30:50
回答 1查看 444关注 0票数 0

vsample_data = credit_card.sample(n=100,replace='False')

打印(Vsample_data)

在这里,我试图从数据集中采样100个数据点,但无法获得正确的样本数据,因此它保留了信用卡欺诈数据集的原始分布,即0类(非欺诈)和1类(欺诈)。

EN

回答 1

Stack Overflow用户

发布于 2018-04-25 06:15:32

增加样本大小(n>>100)。您所采样的数据本身就是一个随机样本。通过随机选择创建一个子集本身就是一个随机过程。如果其中一个数据类的频率很低,那么问题是样本大小(100)太低。

如果您将replace标志更改为'True‘并执行重复采样,则您正在执行一种称为引导的操作。假设完整的数据集代表真实的总体分布,此重采样将为您提供示例,说明对于较低的n (n=100)值,您可能会获得什么样的测量结果。

另一种选择是上面一些人建议的分层策略。然而,当您这样做时,您并没有创建随机子集,并且分布的假设现在内置于较小的数据集中。请注意,只有在查看了整个数据集以确定其分布之后,才能实现这一点。可能不是你想要的。

如果您正在从数据创建(有监督的)训练数据集,您可以重复表示不足的数据来操纵偏差。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50005578

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档