这项任务的目的是预测房价。根据加州住房数据集建立了一个预测房价的模型,并使用以下代码进行了评估。
from sklearn.metrics import mean_squared_error
housing_predictions = lin_reg.predict(housing_prepared)
error = mean_squared_error(housing_labels,housing_predictions)
rmse = np.sqrt(error) --> prediction error
// value I got for rmse was - 68628.1981平均房价在12万到265,000之间。但rmse值为68628.1981。
问题
发布于 2018-07-14 23:52:30
RMSE是一种衡量回归模型预测的“错误”程度的方法,它主要是作为一组模型中哪一组最好的相对度量来使用的。如果您想要一个绝对基线来比较任何给定的模型,您总是可以计算目标的标准偏差,这是一个模型的RMSE,它预测每个观测的$y$平均值。
我还认为,对于像房价这样的东西,一个更有意义的误差度量是均方对数误差,它是在取$y$ (或$y + 1$ $y$包含零)的日志和预测值之后的均方对数误差。原因是我们对错误与目标的比例感兴趣(对于10万美元的房屋,50,000美元的错误要比1,000,000的房子严重得多),而采取日志是调整这种错误的方式。此外,一定要集中于测试或交叉验证错误,否则,您将始终选择您最适合的模型。
https://datascience.stackexchange.com/questions/35476
复制相似问题