第一，问这个问题是没有错的。其次，选择最优预处理步骤(无论是估算还是其他什么)最简单的方法是使用验证集。将你的数据集分成三个部分:训练(训练模型，估计模型参数，例如线性回归的权重)，验证(比较不同的模型，例如，一个模型有一个数据估算策略，另一个模型有另一个估算策略)和测试(这总是存在的，让你检查你是否在某个糟糕的地方搞砸了)。

如果您在验证和测试集上有截然不同的结果，这意味着您很可能过度适应。

如果您对选择最佳估算技术感兴趣，那么您的模型只应该在这一特定步骤中有所不同(其他一切都应该是相同的)。在这种情况下，具有最佳验证分数的模型将是具有最优估算的模型。

在大多数实际设置中，您不希望使用任何估算，而是要对值丢失的事实进行编码(大多数预先实现，例如，xgboost正在为您完成这项工作)。

票数 1

Data Science用户

发布于 2022-05-22 19:15:13

建议:除非您知道(或有预感)数据丢失的原因，否则不应该任意选择基于优化的估算。N/A数据要么是随机丢失的，不是随机丢失的，要么是完全随机丢失的。忽略这一点可能有助于您的优化，但将错过选择适当的模型的标记。还有一些统计测试可以帮助您做出决定。在规则允许的情况下，数据科学竞赛可能是唯一的例外，但这仍然不是最好的数据科学或统计实践。

这是一篇维基百科的文章，帮助你开始学习。

https://en.wikipedia.org/wiki/Missing_data#Types

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/111189

复制

相似问题

问如何评价数据估算技术
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何评价数据估算技术EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何评价数据估算技术
EN