我试着想出一个数据结构来预测湖水的能见度。我有一些测量样本,但想要在方程中取其他特征。
作为一个例子,我想得到天气数据,如雨和气温的过去7天的事件。我从BigQuery获得了这些数据,这似乎很好。但有时它找不到所有过去7天的数据。我该如何处理这样的案件?什么是构造我的特征的好方法?我想:
dayofyear,temp,water_temp,temp-1,rain-1,dayofyear-1,temp-2,rain-2,dayofyear-2,....,temp-7,rain-7,dayofyear-7,visibility最后一个是我想在某个时候预测的领域。
发布于 2017-07-27 15:54:04
处理丢失数据的方法主要有三种。
发布于 2017-07-27 15:46:38
在这种情况下,插值似乎是有意义的:任何时候你错过一天,取一个平均值的前后。
顺便说一句,我认为你没必要那么轻易地放弃失去的天气值。有各种各样的R包,它们简化了从像天气地下这样的人那里获取天气的方法,只有几行代码。
https://datascience.stackexchange.com/questions/21749
复制相似问题