文章/答案/技术大牛

发布

社区首页 >问答首页 >分类:类中的倾斜数据

问分类:类中的倾斜数据
EN

Stack Overflow用户

提问于 2018-02-20 07:57:39

回答 2查看 1.1K关注 0票数 8

我试图建立一个多标签分类器来预测一些输入数据的概率为0或1。我使用神经网络和Tensorflow + Keras (可能稍后是CNN )。

问题是:数据高度倾斜。负数比正数多，可能是90:10。因此，我的神经网络几乎总是输出非常低概率的正例子。在大多数情况下，使用二进制数可以预测0。

几乎所有类的性能都在95%以上，但这是因为它几乎总是预测为零。因此，假阴性的数量很高。

关于如何解决这个问题的一些建议？

以下是我迄今考虑过的一些想法：

使用自定义的丢失函数更多地惩罚假负片(我的第一次尝试失败)。类似于类的加权，一个类内的正例子比负的多。这类似于类的权重，但在类内。您将如何在Keras中实现这一点？
通过克隆阳性样本，然后对神经网络进行过度拟合，从而平衡正负两种情况。

提前感谢！

multilabel-classification

python

tensorflow

neural-network

keras

回答 2

Stack Overflow用户

发布于 2018-03-02 08:50:50

你走在正确的轨道上。

通常，您可以在训练前平衡您的数据集，即减少代表过多的类，或者为代表不足的类生成人工(增强)数据，以促进其发生。

这是一个简单的类，你只需随机选择代表不足的类中的样本，丢弃其余的样本，然后训练新的子集。当然，缺点是你正在失去一些学习潜力，这取决于你的任务有多复杂(有多少特性)。
根据您正在处理的数据类型来增加数据，您可以“扩展”数据。这仅仅意味着从数据中提取现有的样本，并稍微修改它们，并将它们作为附加的样本使用。这与图像数据，声音数据非常好。你可以翻转/旋转，缩放，增加噪音，减少亮度，缩放，裁剪等等。重要的是你要保持在现实世界中可能发生的事情的范围内。例如，如果你想识别一个“每小时70英里的限速”标志，那么，翻转它是没有意义的，你将永远不会遇到一个真正的70英里/小时的标志。如果你想认出一朵花，翻转或旋转是允许的。同样的声音，改变音量/频率轻巧不会有多大关系。但是倒转音轨改变了它的“意义”，在现实世界中，你就不需要识别向后说的话了。

如果你必须增加表格数据，比如销售数据，元数据，等等.这要复杂得多，因为您必须小心，不要将您自己的假设隐式地提供到模型中。

票数 2

Stack Overflow用户

发布于 2018-02-20 08:35:11

我认为你的两个建议已经很好了。当然，您也可以简单地对负面类进行欠采样。

def balance_occurences(dataframe, zielspalte=target_name, faktor=1):
    least_frequent_observation=dataframe[zielspalte].value_counts().idxmin()
    bottleneck=len(dataframe[dataframe[zielspalte]==least_frequent_observation])
    balanced_indices=dataframe.index[dataframe[zielspalte]==least_frequent_observation].tolist()
    for value in (set(dataframe[zielspalte])-{least_frequent_observation}):
        full_list=dataframe.index[dataframe[zielspalte]==value].tolist()
        selection=np.random.choice(a=full_list,size=bottleneck*faktor, replace=False)
        balanced_indices=np.append(balanced_indices,selection)
    df_balanced=dataframe[dataframe.index.isin(balanced_indices)]
    return df_balanced

您的损失函数可以与其他度量相结合，查看正类的回忆。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48880273

复制

相似问题

问分类:类中的倾斜数据
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分类:类中的倾斜数据EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分类:类中的倾斜数据
EN