我正在处理一个非常糟糕的临床数据集,它有300个样本,400个特性,将用于机器学习。我的顾问告诉我这个数据集中一些具有生物学意义的特性,并要求我保留它们,但其中许多功能丢失了50%以上,甚至超过80%。我该怎么办?填充模式是否会影响它们的性能。
发布于 2022-06-14 08:47:31
简单地说,模型性能不应该降低,即使丢失的数据所占比例很大,也不应该考虑适当的估算方法和随机丢失的数据。然而,选择合适的方法需要EDA和测试。
这些特征是数字的还是绝对的?那目标呢?
即使它们是有意义的,但这并不意味着它们还会影响目标。如果这是一个分类问题,最好是研究这些变量在给定目标时的分布情况,然后运行t检验/u检验来检查是否存在统计上的显着差异。如果没有,那么您就有正当的理由删除一个特性。对于回归情况,您可以研究相互信息、相关性和散点图。如果特征和目标都是绝对的,那么运行x-平方测试等。
计算数值可能很棘手,因为我们通常不知道生物学中的基本分布。不过,你在最坏的情况下得到的60个样本应该足够估计了。你应该研究它,看看计算平均值/中位数/组中位数/零/等等是否有意义。可悲的是,这里没有一个完美的方法,你必须测试是什么让你的模型表现得最好。
其他可能的伎俩:
KNNImputer).
https://stackoverflow.com/questions/72611870
复制相似问题