让我们假设我有一个有噪声的2d数据集,其中一个观察数据的人可以很容易地在数据中画一条直线,从而使均方误差最小化。
该线的模型采用y = mx + b形式,其中x为输入值,y为模型的预测值,m和b为训练变量,以使成本最小化。
我的问题是,如果我们将一些输入x1插入到模型中,它总是输出相同的数字,而不考虑数据有多稀疏。像这样的模型如何从相同的输入中预测不同的值?
也许可以这样做,将所有的错误从模型行到点,对它们进行分布,获取这种分布的期望值,然后将该值添加到y中。
发布于 2017-04-01 11:16:31
如果数据是2d,并且可以用一条直线完美地建模,那么就没有基于数据或统计的理由不声称这个过程是完全确定性的,应该输出一个值。
然而,如果你有更多的维度,或者你的拟合不是完美的(误差被最小化,但不是0),那么你所追求的要么是预测值的分布,要么至少是置信界。有许多概率模型可以模拟输出的分布,而不是单个值。特别是线性回归,它假定您的预测周围有一个高斯误差,因此当您获得MSE "A“时,您可以从N(mx+b,A)中有效地得出预测--正如您很容易看到的那样,当A=0时,它会退化为确定性模型。这些预测在预期中是最优的,它们只是你根据模型“模拟观察”的方式。还有一些元方法,如果你把你的预测器当作一个黑匣子--你可以对数据子集进行多个模型的训练,并将它们的预测作为样本来拟合一个分布(同样,为了简单起见,它可能是一个单一的高斯)。
https://stackoverflow.com/questions/43155898
复制相似问题