首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何处理机器学习中丢失的数据

如何处理机器学习中丢失的数据
EN

Data Science用户
提问于 2017-07-27 14:23:57
回答 2查看 822关注 0票数 3

我试着想出一个数据结构来预测湖水的能见度。我有一些测量样本,但想要在方程中取其他特征。

作为一个例子,我想得到天气数据,如雨和气温的过去7天的事件。我从BigQuery获得了这些数据,这似乎很好。但有时它找不到所有过去7天的数据。我该如何处理这样的案件?什么是构造我的特征的好方法?我想:

代码语言:javascript
复制
dayofyear,temp,water_temp,temp-1,rain-1,dayofyear-1,temp-2,rain-2,dayofyear-2,....,temp-7,rain-7,dayofyear-7,visibility

最后一个是我想在某个时候预测的领域。

EN

回答 2

Data Science用户

回答已采纳

发布于 2017-07-27 15:54:04

处理丢失数据的方法主要有三种。

  1. 估算--使用一些方法,用合理的猜测来填充缺失的值。您可以在两个时间点之间进行插值,取所有时间点的平均值,或者使用各种其他技术,利用其他变量的共现来获得合理的估计值。
  2. 忽略-有些方法可以忽略丢失的数据,而在模型中根本不使用它。
  3. 利用-对于数据不丢失的情况下-随机,缺失本身可以是一个信息功能.可以将缺失值作为另一个数据点来对输出进行建模。
票数 6
EN

Data Science用户

发布于 2017-07-27 15:46:38

在这种情况下,插值似乎是有意义的:任何时候你错过一天,取一个平均值的前后。

顺便说一句,我认为你没必要那么轻易地放弃失去的天气值。有各种各样的R包,它们简化了从像天气地下这样的人那里获取天气的方法,只有几行代码。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/21749

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档