首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何确定替换数据集中空记录的最佳方法?

如何确定替换数据集中空记录的最佳方法?
EN

Data Science用户
提问于 2020-03-01 02:06:04
回答 1查看 48关注 0票数 3

我正在做一个项目,根据他/她过去的记录预测下一个葡萄糖值。但在一些病人中,有些录音丢失了。在我的数据集中有2种血糖值缺失的情况。因此,我将在我的示例中将它们标记为场景1和场景2。

场景- 1

  1. 一位病人记录了一天三次的血糖值,基本上是在第30天早餐、午餐和晚餐之前。但在第31天,他只记录了早餐和晚餐。午餐不记录在第31天。那么,我们如何将午餐中的0值替换为另一个值呢?

场景- 2

  1. 另一例患者从第1天至第40天连续记录血糖值,随后又连续2天没有记录血糖值(第41天和第42天没有早餐前、午餐前和晚餐前的血糖值)。在第43天,他又开始记录这些值。那么,解决这种情况的最佳方法是什么呢?

我看了很多文章,大多数解释了如何替换空记录的模式、中值或平均值。但我认为模式,中位数不适合这种数据集。我非常怀疑是否可以用平均值来替换场景中的空记录。我们真的可以用平均值来替换场景1中的空记录吗?或者还有其他好的方法吗?

据我所知,我无法使用上述三种方法来替换场景2中的值,因为大约有6条记录丢失了。如果我是正确的,什么是最好的方案- 2。

谢谢!

EN

回答 1

Data Science用户

发布于 2020-03-01 10:20:36

当丢失的数据数量不够少时,用均值、中值和模式替换缺失值是可行的。在您的情况下,丢失的数据很少。我们可以利用其余的数据比平均值、中值和模式更好地得出估计值。让我们看看可能的方法:

场景1:使用阅读作为早餐和午餐的第31天,尝试找到最近的邻居在一天的早餐和午餐的价值。你可以用最近的邻居一天的晚餐价值来估计第31天的晚餐。

对上述办法的改进:

1)您也可以使用kNN模型,而不是仅仅选择一个最近的邻居。

2)如果你有日期,或者能算出一周中的某一天(如星期日、星期一、星期二等),那么你只能在一周的同一天中选择最近的邻居。(尽管如此,您可以通过简单地减去或添加7到您想要找到的值的日期来计算它。)假设第31天是周日,那么它很可能会和其他周日的数据相似,而不是像周一这样的工作日。

场景2:您可以使用一周中同一天的值来估计丢失的值。最简单的方法就是取一个中位数。一个更强大的估计将是使用一个小的神经网络来估计第二天的值,给出过去几天的值(这里,作为输入的天数将是一个超参数)。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/68948

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档