首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为机器学习准备数据

为机器学习准备数据
EN

Stack Overflow用户
提问于 2020-07-08 02:12:19
回答 1查看 42关注 0票数 0

我正在使用线性回归进行深度学习。我从医院收集了真实的一天(患者到达时间、分诊时间、检查时间和住院时间),但数据并不干净,它的值有高有低。例如,数据集中的平均等待时间是28分钟,数据集中等待时间的标准差是75分钟。

这在机器学习中叫什么?是不是数据不平衡?我该如何克服这个问题呢?数据科学中有没有什么技术可以帮助这些数据为机器学习做好准备?

EN

回答 1

Stack Overflow用户

发布于 2020-07-08 06:56:35

这里的问题是您的不同功能(即等待时间、分流等)可能具有非常不同的尺度(如您所说,一个特征的平均值可能为28,标准差可能为75,而不同的特征可能具有完全不同的尺度)。您的假设是正确的,即这可能会使培训变得更加困难。

一种非常常见的解决方案称为归一化:假设每个特征根据平均值0和标准差1进行分布,则重新计算每个特征。将此方法应用于数据集非常简单:对于每个单独条目中的每个特征,您所要做的就是减去平均值(这将使0成为新的平均值),并将结果除以标准差(这将使1成为新的标准差)。这个过程很常见,以至于它已经在大多数机器学习或统计框架中以矢量化的方式实现。

虽然这缓解了浅层模型中的问题(例如线性回归,就像您的情况一样),但具有多个层的模型在中间层可能仍然会受到此问题的影响。在这种情况下,通常在每一层之后应用一种称为批处理标准化的相关技术。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62781462

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档