我没有正式的背景,所以请耐心点。这就是我的数据集的样子:

我对第一个变量建模感兴趣,使用其他变量作为解释。一个简单的OLS得到了一个或多或少令人满意的模型,但我不太清楚,我知道有k个(介于2到4之间),在这里,我的Y变量和某些变量之间的相关性完全切换,使得整个OLS在数据集上完全不相关,因为我们这样做可以平滑所有这些机制。我尝试用R中的k-均值算法来区分这些区域,结果是图像中的着色。我希望这样划分数据集将揭示更多的“直线”,其中苏丹生命线行动将更“适合”。我想知道我是否走对了路,如果有人能指出实现基本问题的更好的方法,我会很感激:在考虑到不同的制度需要一个可能的不同的系数或(完全不同的模型?)的同时对Y~X进行建模。编辑:我也尝试了火星模型,但结果并不令人满意,因为“物理”意识到这些变量应该如何一起工作+稍微改变训练集会产生太多的系数变化。
发布于 2020-01-02 22:26:15
只是几个想法:
https://datascience.stackexchange.com/questions/65698
复制相似问题