我正在寻找关于如何继续预测独立但相关的模型的建议。
我将使用的例子是住房数据。我有三项投入:
我想要建立模型来预测这样的事情:
数据集是有监督的,因此我们得到了7个特征。该模型在生产中将只有3个输入(lat,长,图像)。理想情况下,我们可以通过对每个模型使用6个输入特性来解决这种依赖,但是生产将只使用3个输入。
因此,如果我开始创建四个独立的模型(平方英尺,价格,地板,销售/不销售),仅基于3个投入,我可能会遇到一些潜在的问题。例如,模型可以独立地预测一个小的面积和大量的地板在家里。因此,作为一个手动评审员,我可以这样说:“嘿,其中一个模型可能是错的,我希望它们能考虑到彼此的预测和信心水平。”
我试着在任何文献中读到这是如何做到的,但我真的找不到合适的术语来搜索。
到目前为止,我的想法:
我确信这类问题以前在统计学学习中已经被研究过,我只是不知道该去哪里看。
发布于 2022-10-07 03:32:21
总的来说,这是使用地理空间数据科学方法的一个主要机会。在某些情况下,它们比ML模型更复杂,有时更简单。
在这种情况下,如果你有足够的例子充分填充你整个研究区域的随机分布,你可以使用实际数据中的变量作为地图上的点,并在整个景观中创建有价值的网格,并使用它来插值你想要预测的四个独立结果的值。
QGIS,一个开源的地理空间建模应用程序和一些youtube搜索是解决这个问题的好地方。
https://datascience.stackexchange.com/questions/114948
复制相似问题