我正在做一个项目,根据他/她过去的记录预测下一个葡萄糖值。但在一些病人中,有些录音丢失了。在我的数据集中有2种血糖值缺失的情况。因此,我将在我的示例中将它们标记为场景1和场景2。
我看了很多文章,大多数解释了如何替换空记录的模式、中值或平均值。但我认为模式,中位数不适合这种数据集。我非常怀疑是否可以用平均值来替换场景中的空记录。我们真的可以用平均值来替换场景1中的空记录吗?或者还有其他好的方法吗?
据我所知,我无法使用上述三种方法来替换场景2中的值,因为大约有6条记录丢失了。如果我是正确的,什么是最好的方案- 2。
谢谢!
发布于 2020-03-01 10:20:36
当丢失的数据数量不够少时,用均值、中值和模式替换缺失值是可行的。在您的情况下,丢失的数据很少。我们可以利用其余的数据比平均值、中值和模式更好地得出估计值。让我们看看可能的方法:
场景1:使用阅读作为早餐和午餐的第31天,尝试找到最近的邻居在一天的早餐和午餐的价值。你可以用最近的邻居一天的晚餐价值来估计第31天的晚餐。
对上述办法的改进:
1)您也可以使用kNN模型,而不是仅仅选择一个最近的邻居。
2)如果你有日期,或者能算出一周中的某一天(如星期日、星期一、星期二等),那么你只能在一周的同一天中选择最近的邻居。(尽管如此,您可以通过简单地减去或添加7到您想要找到的值的日期来计算它。)假设第31天是周日,那么它很可能会和其他周日的数据相似,而不是像周一这样的工作日。
场景2:您可以使用一周中同一天的值来估计丢失的值。最简单的方法就是取一个中位数。一个更强大的估计将是使用一个小的神经网络来估计第二天的值,给出过去几天的值(这里,作为输入的天数将是一个超参数)。
https://datascience.stackexchange.com/questions/68948
复制相似问题