我有一个数据集,其形式是:
时间戳(每日间隔)
纬度
纵能
目标值(y)
所以我想用这些数据训练一个模型并进行插值。因此,我在培训过程中使用了所有的数据,在测试过程中,输入将是x =时间戳、lat、lon,其预测值为目标值。所以空间和时间方面是非常重要的。
我的问题是使用什么模型以及如何处理我的数据?我尝试过的一个非常简单但并不复杂的解决方案是使用KNN Regressor,因此,给定时间,lat,lon,它找到最近的邻居并给出目标值。对如何处理时空数据有什么想法吗?
谢谢
发布于 2020-02-24 20:12:01
我认为这个问题更适合于数据科学社区:https://datascience.stackexchange.com/
有很多方法来处理这个问题,这取决于它所代表的数据类型以及您想要做的预测。在最近的一次Kaggle竞赛中,人们可以很好地讨论各种预测,参见笔记本和讨论:
https://www.kaggle.com/c/bigquery-geotab-intersection-congestion/overview
这种竞争使用了BigQueryML --这是最简单的方法--您可以将输入数据提供给BigQueryML K--均值模型,并得到预测。请注意,BigQueryML支持地理类型,所以您应该为它提供地理(使用ST_GeogPoint(longitude, latitude)) -它将给您提供更好的结果,而不是将lat/lon作为独立变量而不使用空间语义。
https://stackoverflow.com/questions/60379654
复制相似问题