多共线性是多元线性回归的主要假设之一,当自变量之间的相关性过高时,多元共线性就会出现。
然而,在学习线性回归时,关键问题之一是在模型中引入交互项来模拟交互效应,即当自变量对因变量的影响发生变化时,取决于其他一个或多个自变量的值(S)。
这两种说法不矛盾吗?如果模型中的X_1和X_2之间真的存在交互作用,那么一定要去掉X_1或X_2,使回归模型中的自变量不再相关,从而使多元共线性假设成立。放入交互术语似乎忽略了这一假设,而是引入了一个更多的术语来使其进一步复杂化。
从建模的角度来看,这是有意义的,但是如果我们这样做,数学崩溃不是吗?
发布于 2020-08-14 05:17:35
交互效应和互动性有两种不同的含义。多个预测因素简单地告诉我们两个或多个预测因素是否相关,即一个因素的变化会改变另一个因素。我相信,正如你在问题中所提到的那样,这方面没有任何混淆。但是,多属性不需要响应变量来计算它。交互根据定义,总是在预测器与结果的关联方式的上下文中。
更正式地说,如果两种或更多的预测因素的综合效应与我们单独考虑的每种效应的影响相加时不同(或更小或更大),则称为相互作用。A简单直观的例子可以是--考虑水肥对农田玉米产量的影响。由于水分是植物生长所必需的,因此,由于水分是植物生长所必需的,因此田间玉米不需水分就不能增产。相反,如果有足够的水分,但没有肥料,一茬农田玉米就会产生一定的产量。然而,以充足的水分和足够的肥料来优化产量是最好的。因此,如果水和肥料合在一起,产量就比两者单独生产的产量还要高。
y =β_0+β_1x_1+β_2x_2+β_3x_1x_2+error β_3解释了x_1和x_2之间的相互作用可以是加性的(无交互作用)、协同作用(+ve)、拮抗作用(-ve),这取决于不同的参数值。
引用引用的例子和方程式来自-特性工程和选择:一种实用的预测模型的方法,Max Kuhn和Kjell 很好地阅读了对不同特征工程概念的深入解释。因特网链接
https://datascience.stackexchange.com/questions/80237
复制相似问题