首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何评价数据估算技术

如何评价数据估算技术
EN

Data Science用户
提问于 2022-05-21 22:48:56
回答 2查看 210关注 0票数 0

如果有丢失的值,我有一个包含29个特性8的数据集。

我试过Sklearn简单输入器和它的所有策略,KNN输入器和几个K迭代输入器,以及所有累加顺序、估计量、迭代次数的组合。

我的问题是如何评价估算技术,并为我的数据选择更好的方法。

我不能运行一个基线模型并评估它的性能,因为我不熟悉平衡数据和调整参数,而且所有的模型都给出了很差的分数。

这就是我为什么要搜索是否有另一种方法来评估数据估算技术,比如对分布的评估之类的。我是个新手,所以请原谅我的愚蠢

EN

回答 2

Data Science用户

发布于 2022-05-22 18:17:10

第一,问这个问题是没有错的。其次,选择最优预处理步骤(无论是估算还是其他什么)最简单的方法是使用验证集。将你的数据集分成三个部分:训练(训练模型,估计模型参数,例如线性回归的权重),验证(比较不同的模型,例如,一个模型有一个数据估算策略,另一个模型有另一个估算策略)和测试(这总是存在的,让你检查你是否在某个糟糕的地方搞砸了)。

如果您在验证和测试集上有截然不同的结果,这意味着您很可能过度适应。

如果您对选择最佳估算技术感兴趣,那么您的模型只应该在这一特定步骤中有所不同(其他一切都应该是相同的)。在这种情况下,具有最佳验证分数的模型将是具有最优估算的模型。

在大多数实际设置中,您不希望使用任何估算,而是要对值丢失的事实进行编码(大多数预先实现,例如,xgboost正在为您完成这项工作)。

票数 1
EN

Data Science用户

发布于 2022-05-22 19:15:13

建议:除非您知道(或有预感)数据丢失的原因,否则不应该任意选择基于优化的估算。N/A数据要么是随机丢失的,不是随机丢失的,要么是完全随机丢失的。忽略这一点可能有助于您的优化,但将错过选择适当的模型的标记。还有一些统计测试可以帮助您做出决定。在规则允许的情况下,数据科学竞赛可能是唯一的例外,但这仍然不是最好的数据科学或统计实践。

这是一篇维基百科的文章,帮助你开始学习。

https://en.wikipedia.org/wiki/Missing_data#Types

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/111189

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档