首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >模型绩效与均值绩效比较

模型绩效与均值绩效比较
EN

Data Science用户
提问于 2023-05-02 10:47:17
回答 1查看 18关注 0票数 0

我想预测泰坦尼克号乘客的年龄,但我注意到人们通常只是用平均年龄来填充缺失的年龄值。我想将我的模型的性能与简单的均值方法进行比较。我的问题是:

  1. R-平方度量是否是一个很好的指标,以确定我的模型是否比平均年龄值表现得更好?
  2. 如果我想计算平均年龄值的平均绝对误差,我应该把它当作一个模型吗?是使用训练数据计算平均值,然后用测试数据计算其MAE分数,还是使用整个数据集计算平均值?
  3. 我应该如何在python中实现点nr.2?创建像[age_target_data.mean() for _ in age_target_list]这样的均值列表,并将其插入scikit-学习mean_absolute_error(age_target_list,age_mean_list)
EN

回答 1

Data Science用户

发布于 2023-05-02 12:03:05

1.R平方无疑是一种有效的方法来研究不同的属性如何导致输出的差异。我使用了相关矩阵,但其他技术是可行的。

代码语言:javascript
复制
corr_matrix = train_set.corr()
corr_matrix["Survived"].sort_values(ascending=False)`
  1. 您可以仅用训练数据计算平均值,然后在推断时将测试数据中的任何缺失值计算出来。或者,您可以创建第一个模型,仅用于查找乘客的年龄,对所有其他变量进行回归,以预测乘客的年龄,然后将该模型的输出作为对第二个模型的输入,以确定生存。折衷方案是介于两者之间的,比如使用一些输入的平均值或中值来计算年龄的最佳猜测。
  2. 如下所示: train_set.fillna(train_set.groupby().transform('median')) = train_set test_set = test_set.fillna(train_set.groupby().transform('median'))
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/121278

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档