文章/答案/技术大牛

发布

社区首页 >问答首页 >如何确定替换数据集中空记录的最佳方法？

问如何确定替换数据集中空记录的最佳方法？
EN

Data Science用户

提问于 2020-03-01 02:06:04

回答 1查看 48关注 0票数 3

我正在做一个项目，根据他/她过去的记录预测下一个葡萄糖值。但在一些病人中，有些录音丢失了。在我的数据集中有2种血糖值缺失的情况。因此，我将在我的示例中将它们标记为场景1和场景2。

场景- 1

一位病人记录了一天三次的血糖值，基本上是在第30天早餐、午餐和晚餐之前。但在第31天，他只记录了早餐和晚餐。午餐不记录在第31天。那么，我们如何将午餐中的0值替换为另一个值呢？

场景- 2

另一例患者从第1天至第40天连续记录血糖值，随后又连续2天没有记录血糖值(第41天和第42天没有早餐前、午餐前和晚餐前的血糖值)。在第43天，他又开始记录这些值。那么，解决这种情况的最佳方法是什么呢？

我看了很多文章，大多数解释了如何替换空记录的模式、中值或平均值。但我认为模式，中位数不适合这种数据集。我非常怀疑是否可以用平均值来替换场景中的空记录。我们真的可以用平均值来替换场景1中的空记录吗?或者还有其他好的方法吗？

据我所知，我无法使用上述三种方法来替换场景2中的值，因为大约有6条记录丢失了。如果我是正确的，什么是最好的方案- 2。

谢谢！

machine-learning

dataset

回答 1

Data Science用户

发布于 2020-03-01 10:20:36

当丢失的数据数量不够少时，用均值、中值和模式替换缺失值是可行的。在您的情况下，丢失的数据很少。我们可以利用其余的数据比平均值、中值和模式更好地得出估计值。让我们看看可能的方法：

场景1:使用阅读作为早餐和午餐的第31天，尝试找到最近的邻居在一天的早餐和午餐的价值。你可以用最近的邻居一天的晚餐价值来估计第31天的晚餐。

对上述办法的改进：

1)您也可以使用kNN模型，而不是仅仅选择一个最近的邻居。

2)如果你有日期，或者能算出一周中的某一天(如星期日、星期一、星期二等)，那么你只能在一周的同一天中选择最近的邻居。(尽管如此，您可以通过简单地减去或添加7到您想要找到的值的日期来计算它。)假设第31天是周日，那么它很可能会和其他周日的数据相似，而不是像周一这样的工作日。

场景2:您可以使用一周中同一天的值来估计丢失的值。最简单的方法就是取一个中位数。一个更强大的估计将是使用一个小的神经网络来估计第二天的值，给出过去几天的值(这里，作为输入的天数将是一个超参数)。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/68948

复制

相似问题

问如何确定替换数据集中空记录的最佳方法？
EN

场景- 1

场景- 2

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何确定替换数据集中空记录的最佳方法？EN

场景- 1

场景- 2

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何确定替换数据集中空记录的最佳方法？
EN