问对数据进行采样，使分布得以保留
EN

Stack Overflow用户

提问于 2018-04-24 23:30:50

回答 1查看 444关注 0票数 0

vsample_data = credit_card.sample(n=100，replace='False')

打印(Vsample_data)

在这里，我试图从数据集中采样100个数据点，但无法获得正确的样本数据，因此它保留了信用卡欺诈数据集的原始分布，即0类(非欺诈)和1类(欺诈)。

发布于 2018-04-25 06:15:32

增加样本大小(n>>100)。您所采样的数据本身就是一个随机样本。通过随机选择创建一个子集本身就是一个随机过程。如果其中一个数据类的频率很低，那么问题是样本大小(100)太低。

如果您将replace标志更改为'True‘并执行重复采样，则您正在执行一种称为引导的操作。假设完整的数据集代表真实的总体分布，此重采样将为您提供示例，说明对于较低的n (n=100)值，您可能会获得什么样的测量结果。

另一种选择是上面一些人建议的分层策略。然而，当您这样做时，您并没有创建随机子集，并且分布的假设现在内置于较小的数据集中。请注意，只有在查看了整个数据集以确定其分布之后，才能实现这一点。可能不是你想要的。

如果您正在从数据创建(有监督的)训练数据集，您可以重复表示不足的数据来操纵偏差。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50005578

复制

相似问题

问对数据进行采样，使分布得以保留EN