首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >分类:类中的倾斜数据

分类:类中的倾斜数据
EN

Stack Overflow用户
提问于 2018-02-20 07:57:39
回答 2查看 1.1K关注 0票数 8

我试图建立一个多标签分类器来预测一些输入数据的概率为0或1。我使用神经网络和Tensorflow + Keras (可能稍后是CNN )。

问题是:数据高度倾斜。负数比正数多,可能是90:10。因此,我的神经网络几乎总是输出非常低概率的正例子。在大多数情况下,使用二进制数可以预测0。

几乎所有类的性能都在95%以上,但这是因为它几乎总是预测为零。因此,假阴性的数量很高。

关于如何解决这个问题的一些建议?

以下是我迄今考虑过的一些想法:

  1. 使用自定义的丢失函数更多地惩罚假负片(我的第一次尝试失败)。类似于类的加权,一个类内的正例子比负的多。这类似于类的权重,但在类内。您将如何在Keras中实现这一点?
  2. 通过克隆阳性样本,然后对神经网络进行过度拟合,从而平衡正负两种情况。

提前感谢!

EN

回答 2

Stack Overflow用户

发布于 2018-03-02 08:50:50

你走在正确的轨道上。

通常,您可以在训练前平衡您的数据集,即减少代表过多的类,或者为代表不足的类生成人工(增强)数据,以促进其发生。

  1. 这是一个简单的类,你只需随机选择代表不足的类中的样本,丢弃其余的样本,然后训练新的子集。当然,缺点是你正在失去一些学习潜力,这取决于你的任务有多复杂(有多少特性)。
  2. 根据您正在处理的数据类型来增加数据,您可以“扩展”数据。这仅仅意味着从数据中提取现有的样本,并稍微修改它们,并将它们作为附加的样本使用。这与图像数据,声音数据非常好。你可以翻转/旋转,缩放,增加噪音,减少亮度,缩放,裁剪等等。重要的是你要保持在现实世界中可能发生的事情的范围内。例如,如果你想识别一个“每小时70英里的限速”标志,那么,翻转它是没有意义的,你将永远不会遇到一个真正的70英里/小时的标志。如果你想认出一朵花,翻转或旋转是允许的。同样的声音,改变音量/频率轻巧不会有多大关系。但是倒转音轨改变了它的“意义”,在现实世界中,你就不需要识别向后说的话了。

如果你必须增加表格数据,比如销售数据,元数据,等等.这要复杂得多,因为您必须小心,不要将您自己的假设隐式地提供到模型中。

票数 2
EN

Stack Overflow用户

发布于 2018-02-20 08:35:11

我认为你的两个建议已经很好了。当然,您也可以简单地对负面类进行欠采样。

代码语言:javascript
复制
def balance_occurences(dataframe, zielspalte=target_name, faktor=1):
    least_frequent_observation=dataframe[zielspalte].value_counts().idxmin()
    bottleneck=len(dataframe[dataframe[zielspalte]==least_frequent_observation])
    balanced_indices=dataframe.index[dataframe[zielspalte]==least_frequent_observation].tolist()
    for value in (set(dataframe[zielspalte])-{least_frequent_observation}):
        full_list=dataframe.index[dataframe[zielspalte]==value].tolist()
        selection=np.random.choice(a=full_list,size=bottleneck*faktor, replace=False)
        balanced_indices=np.append(balanced_indices,selection)
    df_balanced=dataframe[dataframe.index.isin(balanced_indices)]
    return df_balanced

您的损失函数可以与其他度量相结合,查看正类的回忆。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48880273

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档