首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >RANSAC回归模型的检验

RANSAC回归模型的检验
EN

Data Science用户
提问于 2023-03-11 11:52:38
回答 1查看 46关注 0票数 0

我将建立一个模型(例如多元线性回归)来预测我所在城市的公寓成本。首先,我必须在训练数据中找出异常值。对于这个任务,RANSAC回归算法看起来很有吸引力,因为它不仅允许检测异常值,而且还允许构建模型本身。有一件事让我感到困惑,那就是如何测试受过训练的模型。检验模型是否具有良好预测能力的标准方法是对列车数据和测试数据进行分割,并在测试数据上应用经过训练的模型。对于RANSAC,这将不起作用,因为测试数据也有异常值,而且它们会偏倚模型的分数。

我的问题是,我们如何才能检查受过训练的模型是否好?

EN

回答 1

Data Science用户

发布于 2023-03-11 21:04:40

这里有不同的方面需要考虑:

1.健壮性

使用RANSAC的原因之一是它对异常值的鲁棒性。这意味着,训练集中的一些离群值或多或少不会对结果模型产生强烈的影响。健壮性是模型的一个重要属性:如果您的模型不健壮,它可能会根据您如何将数据分割成训练和测试(最终,这可能是随机种子的问题)而发生很大的变化。

交叉验证是评估鲁棒性的一种很好的方法。通过交叉验证,您可以在不同的训练集上训练多个模型,并比较它们的性能。模型之间的差异很好地反映了训练的稳健性。

2.测试集中的异常值.

首先,重要的是,您对测试异常值的处理不依赖于您的模型。特别是,您不能使用RANSAC-回归来筛选出异常值。这样做将允许模型操作自己的评估。

不幸的是,当涉及到测试异常者的具体处理时,我倾向于给你一个“它取决于”。在这里,它取决于构建模型的具体用例,以及异常值如何影响这个用例。

让我在决定最佳对待离群点时给你一些想法:

  1. 如果你的目标是一项科学工作(即一篇论文),评估标准是重要的。在这种情况下,为了比较,我会坚持文献中使用的评价。
  2. 如果您的异常值是模型无法捕捉的实际值(没有测量误差)(例如,由于一些复杂的模式或在数据中不可见的潜在因素),那么最好坚持标准,例如MSE,因为在使用模型时也会出现这些错误。
  3. 如果在出现异常值的情况下,误差的大小并不重要,那么您可以考虑执行错误裁剪(即设置一个阈值T,而T以上的所有错误都设置为T)。在这里,T的选择取决于用例a可能有点arbitrary.#。
  4. 如果异常值是数据集中的错误值(例如,由于输入数据时键入错误),则可以考虑使用另一种算法或启发式从测试集中删除异常值。但请注意,在这种情况下,应用程序中类似问题的影响将不会被评估。

我希望这能帮助你找到一个合理的方法来处理你的离群点。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/120114

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档