文章/答案/技术大牛

发布

社区首页 >问答首页 >如何处理机器学习中丢失的数据

问如何处理机器学习中丢失的数据
EN

Data Science用户

提问于 2017-07-27 14:23:57

回答 2查看 822关注 0票数 3

我试着想出一个数据结构来预测湖水的能见度。我有一些测量样本，但想要在方程中取其他特征。

作为一个例子，我想得到天气数据，如雨和气温的过去7天的事件。我从BigQuery获得了这些数据，这似乎很好。但有时它找不到所有过去7天的数据。我该如何处理这样的案件？什么是构造我的特征的好方法？我想：

dayofyear,temp,water_temp,temp-1,rain-1,dayofyear-1,temp-2,rain-2,dayofyear-2,....,temp-7,rain-7,dayofyear-7,visibility

最后一个是我想在某个时候预测的领域。

machine-learning

missing-data

回答 2

Data Science用户

回答已采纳

发布于 2017-07-27 15:54:04

处理丢失数据的方法主要有三种。

估算--使用一些方法，用合理的猜测来填充缺失的值。您可以在两个时间点之间进行插值，取所有时间点的平均值，或者使用各种其他技术，利用其他变量的共现来获得合理的估计值。
忽略-有些方法可以忽略丢失的数据，而在模型中根本不使用它。
利用-对于数据不丢失的情况下-随机，缺失本身可以是一个信息功能.可以将缺失值作为另一个数据点来对输出进行建模。

票数 6

Data Science用户

发布于 2017-07-27 15:46:38

在这种情况下，插值似乎是有意义的:任何时候你错过一天，取一个平均值的前后。

顺便说一句，我认为你没必要那么轻易地放弃失去的天气值。有各种各样的R包，它们简化了从像天气地下这样的人那里获取天气的方法，只有几行代码。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/21749

复制

相似问题

问如何处理机器学习中丢失的数据
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何处理机器学习中丢失的数据EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何处理机器学习中丢失的数据
EN