文章/答案/技术大牛

发布

社区首页 >问答首页 >Python中稀疏数据集的过采样

问Python中稀疏数据集的过采样
EN

Stack Overflow用户

提问于 2020-09-11 17:27:38

回答 2查看 785关注 0票数 3

我有一个有多标签数据的数据集。总共有20个标签(从0到20个)，它们之间的分布不平衡。以下是对数据的概述：

|id   |label|value       |
|-----|-----|------------|
|95534|0    |65.250002088|
|95535|18   |            |
|95536|0    |            |
|95536|0    |100         |
|95536|0    |            |
|95536|0    |53.68547236 |
|95536|0    |            |
|95537|1    |            |
|95538|0    |            |
|95538|0    |            |
|95538|0    |            |
|95538|0    |656.06155202|
|95538|0    |            |
|95539|2    |            |
|5935 |0    |            |
|5935 |0    |150         |
|5935 |0    |50          |
|5935 |0    |24.610985335|
|5935 |0    |            |
|5935 |0    |223.81789584|
|5935 |0    |148.1805218 |
|5935 |0    |110.9712538 |
|34147|19   |73.62651909 |
|34147|19   |            |
|34147|19   |53.35958016 |
|34147|19   |            |
|34147|19   |            |
|34147|19   |            |
|34147|19   |393.54029411|

我希望对数据进行过度采样，并在标签之间取得平衡。我遇到了一些方法，如SMOTE和SMOTENC，但它们都是必需的，它们都将数据拆分为训练和测试集，而且它们不处理稀疏数据。在分割之前，我是否可以在预处理步骤中对整个数据执行此操作？

smote

python

pandas

dataframe

oversampling

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-09-11 18:05:40

对行进行抽样，以便以相同的概率对每个label进行采样：

绘制给定标签的行的概率应该是1/n_labels

the (为给定标签绘制给定行的概率)，在该标签(

)中，l应为n_rows的1/n_rows

每一行的概率为p_row = 1/(n_labels*n_rows)。您可以使用groupby生成这些值，并将它们传递给df.sample，如下所示：

import numpy as np
import pandas as pd

df_dict = {'id': {0: 95535, 1: 95536, 2: 95536, 3: 95536, 4: 95536, 5: 95536, 6: 95537, 7: 95538, 8: 95538, 9: 95538, 10: 95538, 11: 95538, 12: 95539, 13: 5935, 14: 5935, 15: 5935, 16: 5935, 17: 5935, 18: 5935, 19: 5935, 20: 5935, 21: 34147, 22: 34147, 23: 34147, 24: 34147, 25: 34147, 26: 34147, 27: 34147}, 'label': {0: 18, 1: 0, 2: 0, 3: 0, 4: 0, 5: 0, 6: 1, 7: 0, 8: 0, 9: 0, 10: 0, 11: 0, 12: 2, 13: 0, 14: 0, 15: 0, 16: 0, 17: 0, 18: 0, 19: 0, 20: 0, 21: 19, 22: 19, 23: 19, 24: 19, 25: 19, 26: 19, 27: 19}, 'value': {0: '            ', 1: '            ', 2: '100         ', 3: '            ', 4: '53.68547236 ', 5: '            ', 6: '            ', 7: '            ', 8: '            ', 9: '            ', 10: '656.06155202', 11: '            ', 12: '            ', 13: '            ', 14: '150         ', 15: '50          ', 16: '24.610985335', 17: '            ', 18: '223.81789584', 19: '148.1805218 ', 20: '110.9712538 ', 21: '73.62651909 ', 22: '            ', 23: '53.35958016 ', 24: '            ', 25: '            ', 26: '            ', 27: '393.54029411'}}    

df = pd.DataFrame.from_dict(d)

# create column that includes counts by label
n_labels = df.label.nunique()
n_rows = df.groupby("label").id.transform("count")
weights = 1/(n_rows*n_labels)

# sanity check probabilities:
bool(np.sum(weights) == 1)    

df_samples = df.sample(n=40000, weights=weights, replace=True, random_state=19)

验证标签绘制是否大致一致：

print(df_samples.label.value_counts()/len(df_samples))

# sampling frequency by group:
# 0     0.203325
# 2     0.201075
# 18    0.200925
# 19    0.198850
# 1     0.195825

票数 3

Stack Overflow用户

发布于 2020-09-11 17:47:05

实际上，从理论上讲，你不需要对你的测试集进行升级。

在类不平衡设置中，人为地平衡测试/验证集没有任何意义:这些集合必须保持真实，即您要在真实世界环境中测试分类器的性能，例如，负类将包含99%的样本，以便查看您的模型在预测1%的阳性感兴趣类别时有多好，而不存在太多的错误。人为地夸大少数类或减少多数类将导致不现实的性能度量，与您正在试图解决的现实世界问题没有真正的关系。

再平衡只有在训练集中才有意义，以防止分类器简单而天真地将所有实例分类为负值，感知准确率为99%。

因此，您可以放心，在此设置中，您描述的再平衡只对训练集/折叠起作用。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63851719

复制

相似问题

问Python中稀疏数据集的过采样
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python中稀疏数据集的过采样EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python中稀疏数据集的过采样
EN