问为机器学习准备数据
EN

Stack Overflow用户

提问于 2020-07-08 02:12:19

回答 1查看 42关注 0票数 0

我正在使用线性回归进行深度学习。我从医院收集了真实的一天(患者到达时间、分诊时间、检查时间和住院时间)，但数据并不干净，它的值有高有低。例如，数据集中的平均等待时间是28分钟，数据集中等待时间的标准差是75分钟。

这在机器学习中叫什么？是不是数据不平衡？我该如何克服这个问题呢？数据科学中有没有什么技术可以帮助这些数据为机器学习做好准备？

dataset

linear-regression

deep-learning

回答 1

Stack Overflow用户

发布于 2020-07-08 06:56:35

这里的问题是您的不同功能(即等待时间、分流等)可能具有非常不同的尺度(如您所说，一个特征的平均值可能为28，标准差可能为75，而不同的特征可能具有完全不同的尺度)。您的假设是正确的，即这可能会使培训变得更加困难。

一种非常常见的解决方案称为归一化:假设每个特征根据平均值0和标准差1进行分布，则重新计算每个特征。将此方法应用于数据集非常简单:对于每个单独条目中的每个特征，您所要做的就是减去平均值(这将使0成为新的平均值)，并将结果除以标准差(这将使1成为新的标准差)。这个过程很常见，以至于它已经在大多数机器学习或统计框架中以矢量化的方式实现。

虽然这缓解了浅层模型中的问题(例如线性回归，就像您的情况一样)，但具有多个层的模型在中间层可能仍然会受到此问题的影响。在这种情况下，通常在每一层之后应用一种称为批处理标准化的相关技术。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62781462

复制

相似问题

问为机器学习准备数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为机器学习准备数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为机器学习准备数据
EN