我正在使用线性回归进行深度学习。我从医院收集了真实的一天(患者到达时间、分诊时间、检查时间和住院时间),但数据并不干净,它的值有高有低。例如,数据集中的平均等待时间是28分钟,数据集中等待时间的标准差是75分钟。
这在机器学习中叫什么?是不是数据不平衡?我该如何克服这个问题呢?数据科学中有没有什么技术可以帮助这些数据为机器学习做好准备?
发布于 2020-07-08 06:56:35
这里的问题是您的不同功能(即等待时间、分流等)可能具有非常不同的尺度(如您所说,一个特征的平均值可能为28,标准差可能为75,而不同的特征可能具有完全不同的尺度)。您的假设是正确的,即这可能会使培训变得更加困难。
一种非常常见的解决方案称为归一化:假设每个特征根据平均值0和标准差1进行分布,则重新计算每个特征。将此方法应用于数据集非常简单:对于每个单独条目中的每个特征,您所要做的就是减去平均值(这将使0成为新的平均值),并将结果除以标准差(这将使1成为新的标准差)。这个过程很常见,以至于它已经在大多数机器学习或统计框架中以矢量化的方式实现。
虽然这缓解了浅层模型中的问题(例如线性回归,就像您的情况一样),但具有多个层的模型在中间层可能仍然会受到此问题的影响。在这种情况下,通常在每一层之后应用一种称为批处理标准化的相关技术。
https://stackoverflow.com/questions/62781462
复制相似问题